中間報告 - 武蔵野日記

今日は研究会で学内プロジェクトの中間報告。なんか他の人からもあまりそれぞれのプロジェクトがうまく行っていない噂しか聞かないのだが、自分も最初目標としたところまで行けるか少し不安。来週東京行っている暇があるかどうかなのだが、いつもと違い行けて1泊2日くらいかな……。3月7日にスプリングセミナーに来る人たち(今回は50人くらい)の前でポスター&デモをすることになっているので、みなさん追い込みどころのようだ。

松本先生からは2グラムでは単語の共起はほとんど見られない、という話。確かにその通りで、3グラム以降も入れないとだめだろうな、と思っていて、とりあえず探索速度・変換精度とにらめっこして決めるところかな。

乾先生に、現在文単位で変換しているようだが、変換するとき必ずしも文ではなく単語単位とか文節単位で入力するので、それも対応した方がよいのでは、ということを指摘してもらう。これに関しては今後入力の履歴を参照して変換する(ATOK では既にやっているようだ)つもりなので、断片的に入れても大丈夫なようになる予定。

shuya-a さんによると、2グラムでデータが巨大(2GB)だと言うが、今どきインストールして2GB増えたくらいなら別にいいんじゃないか、ということと、2.2グラムで作ればそんなに容量は増えないで3グラムくらいの性能は出るのでは、ということ。キーや値も圧縮してみては、という話なのだが、それより単語クラスタリングのほうが先かな? 機械翻訳では言語モデルで値の離散化をして圧縮したりするのはよくある話(たとえば IRST-LM では quantize-lm というコマンドがあって、モデルのサイズを小さくしてくれる)だし、機械翻訳で使われている手法が基本的にそのまま使えるのだと思う。

ryu-i さんに指摘されたのは、単語分割は O 野原くんがやっていたようにかな文字列の段階で単語境界(切る/切れる)の2値分類問題だと思って先に解句やり方もあるのでは、ということだが、日本語の単語分割はかなり文字種の情報が利く(文字種が変わるところは切れ目になりやすい)というヒューリスティックもあるくらいで、たぶんかな文字列だけ見ていては切り方を誤る可能性が高く、言語モデルで確率最大となるような単語分割を選ぶという方法が妥当であろう。

あと、最初リリースしたとき、遅くても精度高くないとみんな興味を失うので、少なくとも既存のものよりはまともに変換できるようになっていないとまずいのでは、という話。おっしゃる通りでまだお見せできる段階ではない、というあたりで準備中なのであった。

結局ファイルサイズの問題はサーバ・クライアント型でやるならこちら側にあればいいんで、そこまで気にしなくていいといえばいいのだが、オフラインになると使えなくなる IME って個人的には困る(出張の時に使えないから)ので、オフラインでも動くようにしたいものである。

研究会のあと、乾先生と ryu-i さんと shuya-a さんの3人が2月誕生日だそうで、masahiko-h くんがケーキを3つ買ってきてくれたので、いずれも8等分して食べる(20人くらいで分けた)。「2月は誕生日の人多いのでお祝いしてあげてくださいね」という引き継ぎがあったらしい……。