簡単に目的言語を使いたい

PACLIC に参加するメンバーを香港に残したまま、自分は一足先に帰国して、午前中はオフィスアワー。

午後からは EMNLP 2018 読み会。(スライド

  • Sergey Edunov, Myle Ott, Michael Auli, David Grangier. Understanding Back-Translation at Scale. EMNLP 2018.

ニューラル機械翻訳では、目的言語の言語モデル相当の知識を(統計的機械翻訳のように N グラム言語モデルを入れるだけでいいような形で)簡単に入れる方法がなく、逆翻訳をすることで入れる方法が Sennrich et al. (ACL 2016) で提案されてから広く使われるようになったのだが、これはそもそも逆翻訳に使う翻訳モデルがそこそこ強くないといけない(目安を言うと、100万文規模の対訳データが最初からないとダメ)ということも知られていて、言語資源がそんなに豊富でない言語あるいはタスクでは、なかなか簡単に使えない、という問題があった。そこで、この研究は言語資源が相対的に少ないような設定でやるにはどうしたらいいか、という問題に取り組んだ、というもの。

結論的には、多様な入力になるようにノイズを入れるといい、という話なのだが、設定によって違いがある、というのをしっかり調べている。データが大量にあるかどうかで、離散的な記号に落とし込んだほうがいいかどうかが違うのではないかと思うのだが、このあたりがどうなっているのかをもう少し考えてみたい気もする。マルチモーダルの設定でも、言語と画像や音声のようなデータの性質が違うので、一見ニューラルの世界では混ぜるのが簡単で、混ぜたらよくなりそうなのに、単純に混ぜるだけではなかなかうまくいっていないようだし。

夕方は NAACL に概要を仮投稿する。今回の NAACL は本締切の1週間前に概要を投稿する必要があったのである。結局うちの研究室からはフルペーパー2本、ショートペーパー4本を投稿することになった。ショートペーパーのうち1本は、他の国際会議に投稿して不採択だったものなので、新規に書き起こしたのはフルペーパー2本+ショートペーパー3本ぶんであるが、これくらいのペースで新しい論文が投稿できるのは理想的な感じ。ちょっと研究のサイクルが早すぎて、1年間論文が通らなかったら、もはや賞味期限切れで、他の国際会議に投稿しても通らないような感じになってしまうのが痛いところだが、このタイミングの国際会議(NAACL や EACL は例年12月-1月)に投稿できるなら、EMNLP や COLING/IJCNLP を入れると3回くらいはチャンスがあるので、それでダメなら諦めもつくというものである。