仮名漢字変換冬の時代

shimpei-m くんが仮名漢字変換はホットな印象を受けると言っていたが、現実的には微妙なところかな。一番アクティブなのは Social IME だと思うが、それ以外はメンテナンスモードに入っている感じ。みんなで鍛える IME というコンセプト的には Google IMEとか MS-IME 2007(Office 2007 についてくる IME)とかはあるのだが、開発を個人でやっているのは Social IME くらいであろう。

未踏はなくなるとか新しく始まるとかいう噂はあるのだが、去年までの制度で続くなら1月末に応募かかっているはずだし、少なくとも形は変わるということか。Yet Another 科研費みたいに使われる未踏は消えてもいい(研究ネタなら大学からもらえばいい)だろうが、未踏ユースは残しておいてよいと思うのだが……。いろいろな事情で日本各地に散っている若者たちを一堂に集める効果があると思われる。

さて、言語処理学会年次大会・修士論文のチェックも一通り終わり、Google 日本語 N グラムも届いたので、少しコードいじりを始める。tkng さんとメールのやりとりをする。ぽげー

sj3 が開発再開というかメンテナンスモードかな? teru くんが熱心な sj3 ユーザで、Gentoo のパッケージも作って相談員のサーバに sj3 を入れていた記憶があるのだが、それ以外の人が使っていた事例を知らない……。

自然言語処理の研究者以外の人はほとんど分かち書きができればいい(品詞は不要)という感じだと思うのだが、taku さんが JavaScript だけで分かち書きをする TinySegmenterというのを書いたそうだ。Boosting (AdaBoost?) でモデルコンパクトにしているという話なのだが、(過学習などの問題の他にも)モデルのコンパクトさは重要。モデルも含めて25KB(学習の部分は入っていない)で、RWCP コーパス(新聞記事)だけ、辞書を使わず学習して95%の精度らしい。どんどんコーパスの量増やしていったら辞書(品詞)の情報要らないな、とは思うので、学習・分類が高速でモデルもコンパクトになるというのはよい性質である。

というのも、前 pLSI のモデルを渡そうとしたとき、非圧縮状態で1GBあったので圧縮して CD-ROM に焼いて渡したのだが、web で配布できる大きさではないし……。その後 ryu-i さんが閾値以下の確率値を0にして疎行列化したところ、それなりのサイズ(数MB-数十MB)になったのであった。小さいことはいいことだ。