コメントを共有すると教材に

午前中は出勤して古典の論文紹介。今日は以下の論文を紹介してもらう。

  • David Vickrey, Luke Biewald, Marc Teyssier, Daphne Koller. Word-Sense Disambiguation for Machine Translation. HLT-EMNLP 2005.

Word Sense Disambiguation (WSD) とは言うが、要は(統計的)機械翻訳の枠組みで、この場所にどの単語を入れればいいのか、というのを WSD と同じように文脈を考慮した分類問題(機械学習)として定式化しました、という話。(統計的)機械翻訳では機械学習をこのような形では使わなかったので、2005年の論文としてはいい着眼点だとは思う。

おもしろいのはその後の展開で、今のニューラル機械翻訳はまさに翻訳を1単語ずつ出力する分類問題として解いていて、しかも入力に対応する単語の数個の対訳候補の中から選ぶ問題としてではなく、語彙サイズ次元(数万)のクラスの分類問題として定式化されているが、計算機が高速になったりアルゴリズムが洗練されたりしてようやくできるようになったわけで、10年もあればこんなのできないと思われていたことが普通にできるようになるのだな、と。(そのために、研究室ではあえて古典の論文を読むことにしているのだが)

今学期から論文紹介のメモを Google Docs で取って研究室内で共有しているのだが、導入してよかったというフィードバックを何人かからもらっているので、これは継続しようと思っている。論文紹介であれば配信してもいいくらいなのだが(一応最先端の論文紹介のスライドはウェブで公開するように伝えているが)、配信の手間を考えるとちょっと見合わない気がしている。研究室配属前の学生とか、仕事で自然言語処理を始めたけど周りに聞ける(自然言語処理の論文を読んだことのある)人がいないとか、そういう人向けに、こういう論文紹介を少しでも公開できるといいと思っているのだが……。

午後は研究会。どうも新入生(外部から来た M1)たちが研究室のイベントを把握していなかったようで、論文紹介と研究会は研究室全員参加だという思っていなかったそうだが、今後はちゃんと出てもらうように伝える。1年間でこの時期にしか話さないことがたくさんあり、2回連続で勉強会を休むとかなり差がついてしまうのである。

研究会のあと、うちの研究室に新たに配分された新しい部屋を見にいく。これまでの学生室は80?なのだが、新しい建物(オートロック)に40?の部屋をもらったのである。どのように使うかを学生たちに決めてもらいたいと考えているので、今日はそのための内覧会。行ってみるとかなりいい部屋で、むしろ自分の部屋をこちらにしたいくらいだが、机も椅子もないのでまずどうするかを4月中を目処に決める予定。

これに伴い、昨年度には物理的に座席がないので定員を設けていたのは途中で撤廃し、希望者は全員受け入れることにしたのだが、今年度は何人来るかな。NAIST 松本研、2019年度入学の博士前期課程の人も行けるようなので、まだ難民は発生しないと思うのだけど……。