M1 向けに話すときは基礎的な事項もちゃんと説明する

いろいろと仕事が溜まっている。ほとんど空き時間がない……(昼ご飯を食べる時間もなかった)

昼から修士論文の中間発表。これで M2 の人たちは一応全員終了かな? しかし来週からは休む間もなく M1 の人たちの修士で取り組む研究の中間発表。ここからが本番〜。

午後は機械翻訳の勉強会。shuhei-k くんが

  • Karthik Visweswariah, Rajakrishnan Rajkumar, Ankur Gandhe, Ananthakrishnan Ramanathan, Jiri Navratil. A Word Reordering Model for Improved Machine Translation. EMNLP 2011.

を紹介してくれる。句ベースの機械翻訳は原言語と目的言語の語順が近いとそれなりにうまく翻訳できることが知られていて、原言語の単語を目的言語の語順に近いように並べ替えることで、句ベースの機械翻訳の精度を向上させよう、という研究がここ5年くらい盛んになりつつある (今年の ACL という自然言語処理で一番メジャーな国際会議でも、並べ替えだけを扱ったセッションがあったほど)。

単純には並べ替えのヒューリスティックとして、たとえば英語の語順は SVO、日本語の語順は SOV なので、日英翻訳で日本語の語順を SVO に入れ替える、というようなルールを書く (自分が2006年にやった研究) ということになるが、いちいちルールを人手で書くのは面倒くさいので、最近は並べ替えモデル自体を機械学習しよう、という話が主流である。対訳コーパスがあれば、単語対応 (アライメント) は自動で推定することができるので、単語のアライメントが入れ替わっているところを負例、入れ替わっていないところを正例として教師あり学習すれば、並べ替えに関する正解データを人手で作らずとも並べ替えモデルが学習できるのである。

  • Roy Tromble and Jason Eisner. Learning Linear Ordering Problems for Better Translation. EMNLP 2009.

がこれらの手法が流行るきっかけとなった論文だが、今回紹介された論文は、上記のモデルを改良しました、というお話のようだ。

しかし読んでみるとどこが性能の向上につながっているのか、いまいち分からない。アライメントがつかなかった単語の扱いを変えているところかもしれないし、もともとの Tromble and Eisner (2009) は単語と単語のペアの並び順が間違っていたら素性の重みをその都度更新するのに対し、本研究では現在のモデルで並べ替えたときの語順と正しい語順が一定以上違うときに更新する (単語と単語ではなく、系列と系列の比較になる) ので、そちらが効いているのかもしれない。後者のほうが本質的な貢献だと納得感は高いが、往々にして細かい実験設定の違いが大きな精度の違いにつながることもあり、前者が決定的なのかもしれない……。

夕方は意味談話勉強会。takahiro-t くんが

  • Philipp Cimiano and Johanna Wenderoth. Automatic Acquisition of Ranked Qualia Structures from the Web. ACL 2007.

を紹介してくれる。手法的には普通。クオリア構造を取ってきて実験と評価を質的・量的両方でしっかりやっているのが評価されたのだろう。(論文の書き方的にはこれは ACL ではなく EMNLP 向きな気もするが、タスク的には ACL 向きか) なんか読んだことあるような? と思ったら、同じ著者らの前の論文だったようだ。2006年の意味談話勉強会で読んでいたらしい……。

ちなみに上記論文、Evernote で検索したら出てきた。せっせと過去の論文をスキャンして OCR している甲斐があった。そういえば、MacEvernote クライアント、PDF を検索したあとのハイライトがずれているのが気になっていたが、検索して見つかった論文を表示させ、Command+F で PDF 内を再度検索すれば正しいハイライトになることを知ったので、激しく便利になる (ただし、毎回検索ボックス内をクリアしないといけない)。これまでは検索でハイライトするためにわざわざ Acrobat で開き直していたので、Evernote の中で探せるのは楽だわ〜 (まあ、そのうちこの問題は根本的に解決されるだろうし)

夜、LREC という国際会議の論文 (概要) の赤入れ。松本先生がことあるごとに「昔の LREC は楽やった。700 words くらいのアブストラクトを出せばよいので、〆切当日にちょちょっと書いて出したりできた」とおっしゃるのだが、今回は 1,500-2,000 words なので、A4 で1枚どころではなく、3-4枚なのではないかと……。時間の割には全力を尽くした、と思う。LREC は毎回 (ヨーロッパ的な観点における) 観光地で開催されるため人気が高いようだが、トルコのイスタンブールは観光地なのだろうな、やはり。