MS-IME の変換ログの分析

MS の TechNet には MS-IME チームのブログがあり、ときどき更新されているので、興味ある人は RSS で購読するといいと思う。

たとえばIMEチームの日本語分析を紹介しますでは、実際に MS に送られた変換ログをどう利用しているか、どういう特徴があるか紹介されている。

単に「この単語をよく使う人はこの単語もよく使う」くらいなら、ブログをクロールしたデータとか、もしくは書いたメールや論文から頻度を計算するだけでいいのだが、生の入力を扱える場合に少し違うのは、読みもついている点。

「市場(しじょう)」をよく使う人は、「投資」「戦略」「金融」をよく使う。「市場(いちば)」をよく使う人は、「生花」「陶器」「青果」をよく使う。

なので、こういうデータを集めておけば、「投資」とか「戦略」を使っている新しいユーザが初めて「しじょう」と入れたとき、「紙上」や「四条」より「市場」を上に出したほうがいいだろう、ということが学習できるわけ。

とはいえ打ち間違いや変換間違いもあるので、そういうのの影響を排除しながら学習する方法を考えないといけないけどね……。

この秋口から ChaIME/KAGAMI の開発メールのやりとりが頻繁にある(メーリングリストがあったほうがいいと思うくらい)のだが、最初の方向性が決まるまではクローズドで進めるほうがいいよなー、と思ったりする。やりとりを見た方が「こんな活発なら自分もやってみよう」と思う人も出てくるかもしれないし、トレードオフではあるのだが……