統計翻訳はソフトな制約がお好き

午前中 Moses の研究相談。自分自身そこまで Moses 使っていないので、ちょっと適切なアドバイスができるか不安ではあったが、Moses を使うべきかどうかということまで含めた話だったので、いろいろコメントできてよかった。

昼から機械翻訳勉強会。今日は shuhei-k くんが

  • Zhongqiang Huang, Martin Cmejrek, Bowen Zhou. Soft Syntactic Constraints for Hierarchical Phrase-based Translation using Latent Syntactic Distributions. EMNLP 2010.

を紹介してくれた。

階層句を使った統計翻訳は "gave X1 to X2" が "X1 を X2 にあげた" に対応するような関係を扱うことができるが、X の部分にはまるルールに制約を全くかけないか、あるいは「X は動詞句」のような「ハード」な制約をかける研究のどちらかに大別でき、この研究はちょうどその中間、「ソフト」な制約をかけたい、という研究。以前紹介した Accurate Non-Hierarchical Phrase-Based Translation もハードな制約を緩めるという話だったが、統計的手法はソフトな制約と相性がよいようである (ゴミもたくさん入ってしまうが、あまり出てこないルールは確率値が小さいし、有効でない素性は学習したら重みが小さくなるため、ルール・素性が膨大になること以外には大きな悪影響はないみたい)。

制約のかけ方として、X を「動詞-名詞句-前置詞句」のような品詞列にしておいて、品詞列同士の類似度を計算(クラスタリング)して素性に入れる、という形で使う。実験結果的には微妙なところだが(discussion にも、速度に対する実験結果が全くないのに「一度計算した結果はキャッシュしておけばもっと高速化できる」とか書いてあって「それくらいやっておけばいいのに」という感じだったり……)、まあ効果はあっておかしくない。

階層句を用いた手法もいろいろと亜種が出てきますな〜。

午後 @shirayu くんの研究相談。masayu-a さんのおっしゃることもごもっとも。その後 kodai-t くんの研究相談。nozomi-k さんの研究について教えてあげたり。nozomi-k さん大人気ですね!

言語処理学会年次大会の発表申し込み締切が12月28日らしいのだが、何人かM1の人が出したいそうなので、LaTeX の公式スタイルファイルはないのですよ (人文系の人も出しやすいように) とか、原稿締切は1月24日なので、12月28日の段階で見切り発車にならないためには、早いところベースラインの実装くらいは済ませ、問題(エラー)の分析とかいろいろ試せる状況にはなっていてほしいかな、というような話をしてみたり。M1で書いておくといろいろ勉強にもなるし、修士論文も書きやすくなるし、挑戦してみるといいと思う。(出したい人はそろそろ誰かスタッフに相談されたし)