難関の国際会議が見えてきた

秋休み明け、ということで研究室で EMNLP 読み会を開催する。EMNLP は、統計的手法や機械学習がメインの自然言語処理のトップカンファレンスである(最近の自然言語処理はほとんどが統計的手法なので、いわゆるトップカンファレンスである ACL と同レベルの論文が集まる)。研究室メンバーが20人いるので、前半と後半に分割。

  • Jiwei Li, Minh-Thang Luong, Dan Jurafsky and Eduard Hovy. When Are Tree Structures Necessary for Deep Learning of Representations? EMNLP 2015.
  • He, Grissom II, Boyd-Graber and Daumé III. Syntax-based Rewriting for Simultaneous Machine Translation. EMNLP 2015.

がおもしろかった。

前者は深層学習における表現学習で、木構造が必要な場合はどういう場合か? というのをいろいろ比較した、まとめ論文的な話。 日本語での解説はここに詳しい。言語は recursive か recurrent か、というのが言語処理におけるニューラルネットワークで考慮しないといけない点の一つで、recursive の方がやはり研究者は好きなのであるが、必ずしも recursive がよい、というわけでもない、と。recurrent でうまくいくと聞いたときは本当か?と思ったが、n-gram が頑健に動くのと同じで、系列の情報でかなり言語の特性が捉えられているのだと思う。

後者は同時翻訳をする場合、早めに訳出できる場合は早めに訳出するように文を書き換えましょう、という話。先日 [twitter:@odashi_t] くんが研究室に招待講演しに来てくれたときも、同時翻訳のためにフレーズをうまく分割する、という話をしていたが、こちらは統語構造を考慮する、というものである。Daume III さんのブログに日本語の話が出てきたとき、あれ?と思ったが、この論文の伏線であったことが氷解する。

日本語と英語の語順が近くなるように受動態と能動態を入れ替える、というようなことをいろいろしているのであるが、これ、我々も今年の5月くらいから日英翻訳でいろいろ試していた話と同じ(ただし、我々は書いたルールが少ない)で、ちゃんとやっていればこうやって EMNLP でフルペーパーで発表できていてもおかしくない話だったねえ、なんて話をする。

最近そういうことが割合多く、研究室で手をつけてはいるのだが、数ヶ月〜半年経っても完成しないので諦めたら、その年〜翌年に ACL/NAACL/EMNLP/COLING あたりでやりたかったことを実現した論文を見る、という展開がよくある。方向は間違っていなかった、ということなのであるが、根本的に実装力(正確さ、そして実装の速度)を上げないといけないように思う。

ACL 読み会より EMNLP 読み会の方がおもしろそうな論文が多かった、という声を学生から聞いたのだが、EMNLP と ACL は採択される論文の傾向が若干異なるので、うちの研究室的には多分 EMNLP = NAACL > ACL = COLING の順に興味のある論文が発表されてそうである。論文のおもしろさが鑑賞できる程度にみんな実力がついてきた、ということで、嬉しいことである。来年は上記のようなメジャーどころのカンファレンスに(フルペーパーだけでなく、ショートペーパーと student research workshop を含めてよいので)4本以上通したい。