徒らに複雑にするデメリット

午前中は ACL 2019 読み会。すでに各地で ACL 2019 読み会や最先端 NLP 勉強会が開催されているが、うちも毎年開催しているのである(外部の勉強会に参加しない人がマジョリティなので)。昔は1日で集中的にやっていた年もあるが、最近は1日で数人ずつやるスタイルで定着。駆け出しのころは、聞く側ではなく読む(紹介する)側で参加するときに能力が伸びる気がするので、全員に発表してもらう形でやっている。あと、「よい発表」を聞くことで発表スキルも上がるので、どんどん外にも出て行ってもらいたい。新入生は自然言語処理若手の会シンポジウムにみんな参加してもらい、だいたい言語処理学会年次大会でも発表してもらうのは、外の人がどれくらいできるか(あるいは首都大の環境がどれくらいのレベルか)知ってもらうという意図がある。

最近うちではマルチモーダルな自然言語処理(具体的には画像の情報を用いた機械翻訳)に取り組んでいるので、個人的には下記の研究が気になった。

  • Lacer Calixto, Miguel Rios, Wilker Aziz. Latent Variable Model for Multi-modal Translation. ACL 2019.

これまではテキストと画像を両方潜在変数から生成するモデルは提案されていたりしたのだが、これはテキストから潜在変数を推定し、そこから画像を生成するというモデルで、これでよくなる理屈がよく分からない(そもそもマルチモーダル機械翻訳では、画像の情報を使っても翻訳性能が下がることが多いので、よくなると言っても微々たるものなのだが)。スムージングの効果程度しかないと思うし、スムージングするにしても限定されたテキストの情報(Multi30K という標準的なデータセットだと3万文対しかない)だけだと少なすぎてうまくいかないので、Multi30K の画像の情報も入れて少し賢くスムージングする、ということなのかもしれないが、もしそうならラベルなしデータを入れてスムージングする方が(たとえば生コーパスで学習した単語分散表現やエンコーダ・デコーダの初期化を工夫するとかする方が)素直で簡単なのではないか……(一応中では逆翻訳を使った実験結果も言及しているが)。

お昼からは共同研究のミーティング。なぜか Google の調子が悪く(Skype の調子は悪くない)、色々な操作に時間がかかって難儀する。MacBook 12インチはこういうとき非力で困る。修士論文の方向性について話し合ったりする。もうそういう時期だなぁ。

夕方は M2 の進捗報告を聞く。修士論文に向けた最後の追い込みのスタートである。ここで最後ひと踏ん張りするかどうかが、フルペーパーあるいは論文誌が書けるかどうかに関係しているので、まだ論文誌まで投稿していない人はもう少し頑張ってくれると嬉しい。今年は M2 の6人中すでに論文誌に出版済みの学生が1人、投稿済みの学生が1人いるので、あと1-2件投稿できるといいと思っている(特に博士後期課程への進学を考えている人は)。