オンライン授業をみんなすればいい

午前中は NAACL 2018 読み会。2本の論文を紹介してもらったが、興味のあったのは以下。

  • Lemple et al. Phrase-Based & Neural Unsupervised Machine Translation. NAACL 2018.

詳しい内容は 教師なし学習は機械翻訳に魔法をかけるか?というブログ記事にまとまっているのでそちらを読んでもらえばいいが、逆翻訳を使うことによって対訳コーパスなしに機械翻訳を行うという一連のタスクの続きである。ニューラル機械翻訳の時代の論文なのでニューラル機械翻訳かと思って見てみたら、特にニューラル機械翻訳に特化した話ばかりでもなかったのがちょっと意外(いいことだが)だった。

これ、やはりどの文がどの文の翻訳になっているという情報を使わないにしても、元々が対訳コーパスであって、相手方が必ずいる、という設定に、本当に意味があるのかは若干の疑問が残る。確かに教師あり学習よりは難しい設定なのだが、現実世界ではそもそもそのように対訳であることが保証されているのに対応関係が不明なデータ、というのは存在しないのではないかと思うので。とはいえ、にコンパラブルコーパスであるかどうかすら分からない状況でやる前のステップとして、対訳コーパスを使った教師なし機械翻訳、というのは意味があるタスクだろう。

個人的には教師なしニューラル機械翻訳のアプローチは(逆説的だが)機械翻訳以外のタスクで効果があると思っているので、誰かおもしろい適用先を見つけた人は教えてほしい。昔はこういうの(たとえばスペリング誤り訂正)は予測モデルを立てて EM アルゴリズムを使ったりして教師なしで解いていたのだが、深層学習の発展で、予測モデルをがんばって設計しなくてもできるようになったのではないか、と思うのである。一応研究ネタとして今年度の頭くらいから研究室の中で言っているのだが、誰もやりたいと手を挙げないし、放置しててももったいないので書いてみるテスト。

そういえば羽村市の公開講座で9/15に一般向けに機械翻訳についてのトークをするのだが、まだ空席があるようなので、興味のある方は申し込んでいただけると幸いである(8/31〆切)。参加費は無料で、一時保育を利用する人だけ保育の利用料がかかるそうである。2時間のトーク、まだ資料は準備できていないのだが、今年は機械翻訳について授業で B1/M1 にそれぞれ1回ずつ、高校生(主に高2)向けに2回話し、それぞれ統計的機械翻訳の話も入れて3時間くらい話しているので、統計的機械翻訳の話をほとんど飛ばし、その代わりにデモを入れて調整しようと考えている(デモを必ず入れてください、と主催者から頼まれている)。

夕方は首都大の秋葉原キャンパスに移動して、オンライン講義の打ち合わせ。同じ話を何回もするのは準備する労力のセーブとしては有効なのだが、そもそも一度しっかり収録してオンラインでいつでも誰でも見られるようにしておけば、準備には一手間かかるのだが、話す労力をセーブできるので、ちょっとエフォート的には持ち出しだが、今年はオンライン講義に挑戦しようかと思っているのである。(ちなみに去年高校生向けに話したトークは公開されている