機械翻訳を研究テーマにするためには

午前中、東京から研究内容について聞かせてくださいという方がいらしたので、高の原からご一緒して研究室に来て、お話する。11時から中村研にお邪魔して、[twitter:@neubig] さんに音声翻訳のデモを見せていただいたりしつつ、研究内容と最近の状況についてお話したり。こういうとき、専門家がすぐ近くにいるのは心強い。

お昼ご飯を挟んで、いろいろ次から次に質問があり、どれも熱心に聞いてくださるので、こちらも説明に熱が入り、結局15時までたっぷりお話する。原理の話だけでなく、歴史の話をしてしまうのは、やっぱり科学史出身だからだろうか……。(相手の方も社会科学系だったので)

雑談で、なんで自分が企業ではなく大学にいるのか、そして東京などの都会ではなくNAISTにいるのか、ということをお話しつつ、そうかあ、自分ってそう考えているんだな、と納得したり。世の中にインパクトを与えるには?ということについて、再度考えてみたりした。世界的な企業にいるわけではないが、こうやってときどき奈良の山奥まで来てくれる人とお話したりするのが、自分には合っているように思う。中高生のころは仙人になって竹林で隠遁生活を送りつつ、ときどき都会から来る人と談笑するような生活をしたいなと思っていたが、図らずもそれにかなり近い生活をしているし……(NAISTのある奈良県生駒市の高山地区は、高山竹林園もあり、世界の茶筌のシェアの99%を誇る)

あと松本研でなぜ入学時に機械翻訳をやりたいと言っていても数ヶ月で研究テーマを変えるのか、ということについて@neubigさんとも話したのだが、最近の統計的機械翻訳は勉強することが多すぎるのが一因なのかなと思う。日本語入力が総合格闘技だ、というのは@taku910 さんによるいいキャッチフレーズだったが、機械翻訳総合格闘技で、特に2005年くらい以降の統計的機械翻訳は、自然言語処理のあらゆる分野の要素技術を抑えた上で、データ構造やアルゴリズム、分散処理なども含めて把握する必要があり、相当大変なんだと思う (特に、事前知識なく入学することが多く、修士で卒業する人は実質的に1年程度しか研究できないNAIST生には)。

うまくサブタスクを切り出せば、修士の人でも十分研究できると思うのだが、全容が分かっていないと切り出すこともできないので、統計的機械翻訳に詳しいメンターが、こういう問題を解いてはどうか、と半ば天下り的ではあっても面倒を見てくれる、というような形でないと厳しいのかもしれない。@neubig さん曰く、最初はブラックボックスでいいので分からないところは分からないままでも使ってみて、徐々に分かるところを増やしていけばいいのでは、と。それも納得。ともあれ、来年度以降入学して来る人は、恐らく日本の大学で機械翻訳を研究するには最強の環境だと思うので、臆することなく飛び込んでもらえれば、と思う。

夕方、言語教育勉強会。今週は松本先生と[twitter:@keiskS] くんが国際会議参加でカナダにいるので、小ぢんまりとした感じで。論文紹介をする人がいなかったので、自分は

  • Daniel Dahlmeier and Hwee Tou Ng. Better Evaluation for Grammatical Error Correction. NAACL 2012.

を紹介した。タイトルは一般的な名前だが、ある意味釣りで、既存の共通タスクで使われていた GNU wdiff ベースの誤り評価尺度だと、人手の正解に最大限一致する系列を求めているわけではないので、動的計画法を使って最適なパスを見つけると、実際よりよい系列が見つかり、フェアな評価ができる、という話。なぜこのようなことが起きるかというと、たとえば word という単語の前に人手で a を挿入するという編集をするとき、作業者によっては word を消して a word と書き込むことがあり、この2つは実質的に同じ編集なのに、別々に評価されてしまっているからである。

本来は、編集操作によらず入力と出力で変わった箇所だけを抽出して (要は正規化して) 評価すればいいと思うのだが、スタンドオフ形式で、何単語目から何単語目までをどのように編集、という情報で記録していると、本文の情報を保持しないので、ナイーブに評価するとうまく行かないのは仕方ない気もする。[twitter:@tomo_wb] くんも Lang-8 のデータは動的計画法を使って最適パスを求めて評価しているそうだが、せいぜい1パラグラフ説明するくらいであり、それで1本論文が書けるとは。

後半の進捗は@tomo_wb くんによる、人工知能学会全国大会の発表練習。15分は短い気もするが、言語処理学会年次大会もこれくらいの長さだったか。ちょっと時間が足りないような……。