古典的アルゴリズムが勢揃い

午前中、古典論文紹介で以下の論文を紹介してもらう。

  • Graham Neubig, Taro Watanabe, Shinsuke Mori, Tatsuya Kawahara. Machine Translation without Words through Substring Alignment. ACL 2012.

フレーズベースの統計的機械翻訳で、フレーズ内を部分文字列に分解して列挙し、inversion transduction grammar という文法を用いて分解候補を解析することで、文字単位の翻訳モデルでもう単語単位の翻訳モデルと同等の性能を得ることができる、という手法。

ザ・計算機科学という感じで、コンピュータサイエンスアルゴリズムやデータ構造が詰まっている、古き良き時代の統計的機械翻訳の論文。こういう論文が多かったので、機械翻訳の研究ができるのはかなりしっかりコンピュータサイエンスの勉強をしてきた人だけだったのだが、ニューラル機械翻訳の登場から、データさえ用意したらなんとなく出力が得られるので、かなりハードルが下がったなぁ、と思ったりする。いいことか悪いことかよく分からないが、いまのような研究室の環境でも機械翻訳の研究をする、という観点からは、確実に現在のほうがありがたい。

お昼休みには臨時の進捗報告を聞く。とある共通タスクに参加する予定なのだが、データがスケジュール通りにリリースされなかったり、提出期限が三連休の最中だったりして、色々とイレギュラーなのである。NAIST 松本研にいたときは、共通タスク専用のプロジェクトミーティングを開催していて、それはそれでブレインストーミング等も含め楽しかった記憶があるので、共通タスクに参加するならチームでワイワイやるような感じがいいなぁ(1人で黙々とやっても、上位に入るなどして記録に残らないと微妙なので……)。

午後は研究会で新入生の進捗報告を聞く。B4 の人たちや研究生は順調に進んでいて、NLP 若手の会シンポジウム(YANS)で発表できそうな感じで進行している。M1 の新入生はやはり授業の負荷が高いようで、全員 YANS は見送りかな。D1 の人はどうするか不明だが、今年はメンターの人を入れても10人も参加しないかなぁ(B4 の数がそもそも去年や一昨年より2人少ない)。