有名なところがさらに有名に

午前中はアルゴリズム演習。はじめてのPという番組を見せてマージソートのやり方を理解してもらう(この回、秋葉さん直々にマージソートを解説されていておもしろい)。マージソートは自分もインターンシップの課題で書いたことがあり、授業で取り上げることには思い入れがあるのだが、そもそもアルゴリズムの授業はなんで最初に延々ソートをやるのだろうか。現在 B1 向けのアルゴリズムの講義は、教科書も決まっているのでそれに従って淡々とソートについて教えているが、自分としてはソートができて嬉しい場面がそんなにないので、探索とか動的計画法、グラフみたいな話に時間を使いたいのだけどな(というわけで、この B2 向けの授業では、ソートをやるのは1コマだけ)。

午後は論文紹介。以下の論文を紹介してもらう。

  • Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Y. Ng, Dan Jurafsky. Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction. NAACL 2018.

最近は教師なしニューラル機械翻訳でも逆翻訳が使われたりしているが、これは文法誤り訂正に逆翻訳を使うという話。画像や音声のように入力にノイズを加えてデータを増やすという処理が言語ではあまり自明ではない(系列データかつ離散的な入力なので、どのような処理が効果的なノイズかがよく分からない)ので、これに限らず色々な手法が試されている感じ。SeqGAN や MaskGAN を見ていても思うが、言語にうまくノイズを加える方法が確立されれば、(計算資源を投入することで、比較的)少量のタグ付きデータからも学習できるようになりそうなので、ちょっと期待(何かブレイクスルーがあるにせよ、ここ2年程度のことだろうが)。

研究会(全体ゼミ)では EMNLP 2018 の参加報告をしてもらったり、シリコンバレーの研修報告をしてもらったり。EMNLP 2018 の査読がきわめて厳しかった、というグラフを見せてもらい、たしかにこれでは落ちても仕方ないか、と思ったりする。メジャーどころに(投稿しても低いスコアでリジェクトされる)論文が集中しても、分野の健全な発展につながらないと思うのだけど、なんとかならないものか。ちゃんと自分の研究のレベルを理解して、もっと 2nd tier の国際会議にも投稿すれば、全体の底上げにつながると思うのだけど、1st tier ばかりに投稿すると 1st tier の運営メンバーが疲弊することで、分野としてはレベルが落ちる気がするのだけど。落とされている側なので、人のことは言えないが……(我々は EMNLP ではなく WMT という機械翻訳の国際会議の方で2件の発表があった)