午前中は古典の論文紹介。先週間違えて1週間先の論文について書いてしまったので、ここでは4月25日の論文について紹介する。
- Minh-Thang Luong, Preslav Nakov, Min-Yen Kan. A Hybrid Morpheme-Word Representation for Machine Translation of Morphologically Rich Languages. EMNLP 2010.
これは形態素解析結果を使って統計的機械翻訳のリランキングをするという話。研究室ではみんなニューラル機械翻訳ネイティブになってしまった(あっという間)ので、統計的機械翻訳の基礎を解説しながら読む。研究室ができたばかりのころはがんばって統計的機械翻訳の勉強をしていたのが嘘のようである。ニューラル機械翻訳でも単語の表層以上の情報を入れたい(あと、大規模な対訳コーパスがない言語対でも高精度な翻訳がしたい)という要求があるので、そういう方向の研究も見るといいのかも。たとえば以下とか。
- Matthews et al. Using Morphological Knowledge in Open-Vocabulary Neural Language Models. NAACL 2018.
午後は研究会。大学院生の研究紹介と NL 研(情報処理学会自然言語処理研究会)の発表練習。研究紹介で、この卒研で取り組んだ内容は ACL Student Research Workshop に投稿中です、と紹介があったが、たまたまこの日に accept されたという連絡があり、嬉しいものである。
- Satoru Katsumata, Yukio Matsumura, Hayahide Yamagishi and Mamoru Komachi. Graph-based Filtering of Out-of-Vocabulary Words for Encoder-Decoder Model. In Proceedings of ACL 2018 Student Research Workshop. Melbourne, Australia. July, 2018.
これ、今年の言語処理学会年次大会で発表した話の続きなのだが、年次大会の時点では共起語を考慮した HITS でニューラル機械翻訳のデコーダの語彙制限に使えるのでは、と思っていたが、どうも実験結果的にエンコーダのノイズ除去の方に効果があるのでは? ということで、ニューラル機械翻訳だけでなく英語学習者の文法誤り訂正タスクでも実験をしてみたところ、どうやらその解釈で正しそうだ、ということで投稿したものである。12月くらいの段階では「どうもだめそうだからこの研究テーマやめたい」「外れの研究テーマをサジェストして正直スマンカッタ」みたいな状況になったこともあったので、諦めないでよかった。
これでうちの研究室で B4 から内部進学した M1 の4人中の3人が査読付き国際会議に採択され、研究室ができて以来の記録更新。ただ、全部 Student Research Workshop(採択率は40%くらい)なので、short paper でもいいので本会議に挑戦したほうがよかったかな〜と思ったりする(〆切のタイミング的に、今年は無理だったけど)。
夕方は読売新聞からの電話による取材。20分ほどだが、これまで取材を受けた新聞社の中ではもっともスムーズにお話ができて感銘を受けた。そういえば、発言小町のグループの方々がいらしたときも、話してて大変楽しかったのを思い出した。話してて「ちょっともう少し勉強してきてほしい」と言わざるをえない記者の方がいた新聞社もあったので、今後も読売新聞からの問い合わせには応じようと思っている。(その後、5月10日の夕刊に載ったらしい。)