意味を担う単語以上、文未満の単位を見つける

午前中、中退するM2の人の席をmasayu-aさんが掃除する横で@tettsyunくんと雑談していたり。ちょっとは手伝えばよかったかなとプチ反省……

昼から機械翻訳勉強会。今日は@tomo_wbくんが

  • George Foster and Cyril Goutte and Roland Kuhn. Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation. EMNLP-2010.

について紹介してくれる。アイデアとして、従来手法は

  • 従来の分野適応手法は適応元と適応先の分野ごとに言語モデルと翻訳モデルを作り、線形結合するのが典型的。しかし、適応元と適応先の分野が相当離れているとうまくいかない。
  • 適応先の分野の文集合と似ている文を適応元の(典型的には大規模な)コーパスから文単位で選択し、文集合に追加して学習する。しかし、文単位では専門分野と判定される文でも、個々の単語やフレーズは一般的な表現を使っていることがある。

という2つの手法が典型的だったが、それぞれに対して

  • 適応先の分野に特有の素性を見つけるのではなく、適応先と適応元で共通している一般的な素性を見つける。(言い換えると、適応元の分野に特有の素性の重みを低くする)
  • 文単位ではなくフレーズ単位で分野適応する。

というアプローチで対処する。

いずれも「なるほど」という感じであり、使っている素性もシンプルなのに効果は抜群 (ベースラインが弱いのではないかという話もあるが、比較対象自体は適切に見える)。へー、という感じであった。

個人的な興味としては、ここで出てきた「general langauge (model)」というのはいわゆる generic pattern と呼ばれる分野に共通してよく登場するパターンのことではないかと思うのだが、これって本論文に書かれたやり方ではなくても自動で見つかるのではなかろうか、ということを検証したい。分野適応は文単位でも単語単位でもなくフレーズ単位でやったらよい、というのは、統計翻訳でうまく行った(恐らく)初めての語義曖昧性解消はフレーズ単位の曖昧性解消だった、という話とも整合性があるし、納得。

  • Marine CARPUAT and Dekai WU. "Improving Statistical Machine Translation using Word Sense Disambiguation". EMNLP-2007.

まだまだ分かっていないことはいろいろあるなぁ。