深層のネットワークが要る場合

午前中は共同研究のミーティング。言語処理学会年次大会に投稿できるかどうかの判断をする、という会議だったが、特に問題なく投稿できそう。どうも性能が思ったより出ていないのだが、ミーティング後に実験設定を変えてやってもらったところ、一応実用的な性能になったので、一安心。

昼から論文紹介で以下の論文を紹介してもらう。

  • Colin Cherry, George Foster, Ankur Bapna, Orhan Firat, Wolfgang Macherey. Revisiting Character-Based Neural Machine Translation with Capacity and Compression. EMNLP 2018.

最近は単語ベースのモデルでも BPE (Byte Pair Encoding) をするのが普通だが、文字ベースの手法と BPE をかけた単語ベースの手法をしっかり比較しましょう、という趣旨の論文。深いネットワークを使うと BPE をかけても単語ベースの手法より文字ベースの手法の方がいいようで、言語的に細かいパーツから意味的あるいは構文的な情報を組み上げようとするなら、深い層のネットワークが必要、というのは直観的には正しいし、なるほどという感じ。最近はうちの研究室でも文字より小さい粒度の単位をベースとする手法の研究をしているのだが、これらはさらに very deep なネットワークが必要なのではないかなと思ったりする。

研究会では修士論文の進捗確認。2000字程度の概要を12/21に審査委員に出す必要があるので、それを全員でチェックするのである。この段階ではみんな論文の実験部分はほぼ終わっていて、あとはどうまとめるかという話だし、今年はみんなすでに一度は学会発表しているので、特に問題はない。うちの修論は PDF で30ページ以上書いてもらっているのだが、だいたい国際会議のフルペーパー相当の内容があれば書けるので、あとは論文としての完成度を上げるだけである。