IBM モデル1とその先

朝、腰に違和感を感じる。やはりアメリカ出張が……。

午前中、NTT でミーティング。データを見つつ議論。いろいろデータを見ると悩ましいケースがありますな〜。なんとかなるか……?

昼、お2人の方々からそれぞれ独立に「あれ、小町さんだと気がつきませんでした。学生みたいですね」と言われる。7月1日から NAIST も節電で電灯を消して暗くなっているので、自分もクールビズにしようと思い立ち、普段は土日にするような格好をしているのだが、若く見えるほうが嬉しい年頃。20歳のころは複数の先生方から「小町は年齢を偽っている。きみは本当は40歳くらいだろう」と言われたりしたものだが、いまは逆転したのだろうか (笑)

午後、機械翻訳勉強会。そろそろ終わりに近づいているが、

Statistical Machine Translation

Statistical Machine Translation

の11章、Tree-based Models を katsuhiko-h くんが解説してくれる。ちょっと盛りだくさんだったので途中で打ち切りになって次週に持ち越すことになったが、6週間かけてこの本のコアの部分を読むのはいい試みだったと思う (来年もまたやるのはしんどいが)。

NTT の永田さんとも昼間「統計翻訳は IBM モデルの話をし始めて数式の話が出てくると、毎年 M1 の人が激減するんですよね〜」という話をしたところ、「IBM モデルはモデル1くらいを説明すればよくて、あとはフレーズベースの説明をすればいいんじゃないですか。フレーズベースの翻訳だったら、原言語側はどのポジションからも翻訳できるということを除けば、目的言語側を左から右に翻訳していくと形態素解析かな漢字変換とやっていることは同じ探索の問題なので、すっきり説明できます」とのこと、なるほど。自分も今年は12月に4回講義をすることになっていて、統計的機械翻訳形態素解析かな漢字変換・誤り訂正についてそれぞれ話す予定なので、参考になる。一応それぞれのパーツは少しずつ作ってきてはいるのだが、4回でまとめるためにはそれぞれの関係をクリアにしないと〜。

IBM モデル1は最近@nokuno さんがIBM Model 1 の実装IBM Model 1 を試してみたなどでも書かれているし、上記の SMT 本の中にも疑似コードが書かれているし、これ自分で書いて勉強するのもいいんじゃないかと思っている。(@nokuno さんのコードを見ていただければ分かるが、20行ほどで IBM モデル1は書ける。IBM モデルはモデル5まであって、段々難しくなる) 

これ自身、@taku910さんが客員准教授としてコーディネートされている東大の創造情報学連携講座@hidetokazawaさんが出された課題の一つで、なかなかおもしろい課題が並んでいる。@hidetokazawa さんも松本研の出身(社会人D)であるが、上記のような課題を見て機械翻訳に興味あり、かつ実装したりする馬力ある人が入ってきてくれるといいのだけど……(機械翻訳は実装力ないとコアのアルゴリズムが触れなくなってしまうので……)

夕方、意味談話解析勉強会。takahiro-t くんが

  • Sadao Kurohashi and Yasuyuki Sakai. Semantic Analysis of Japanese Noun Phrases: A New Approach to Dictionary-Based Understandig. ACL-99.

を紹介してくれる。もう10年以上前になるが、古き良き時代の研究という感じで、機械学習や統計が流行る前は確かにこういうスタイルの研究がけっこうあったような気がする。「必殺パラメータ」的なものが随所に登場するのだが、いまならこういうのはデータから学習するのだろう (でも人手でカリカリにチューニングしたパラメータや、あるいはものすごい言語学的直観がある人が「とりあえずこんなもんでいけるんやないか」と適当に決めた値に機械学習が勝てないことも往々にしてある)。

結局名詞に関する(生成語彙的な)リソースを作ればこういう問題はほとんど解決できるので、いろいろ調べつつ名詞に関する知識を集めてみましょうか、という方向でまとまる。松本先生が「メンタルスペース理論は気持ち悪いが、なんで人間はこんな言語表現が理解できるのかということを考えるには役に立つので、興味あったら読んでみて」と具体例を挙げつつ連呼していたが、実は読んだことなかったので今度注文して読んでみよう。

メンタル・スペース―自然言語理解の認知インターフェイス

メンタル・スペース―自然言語理解の認知インターフェイス