初めての修論生を送り出す

朝からハイパー事務処理タイム。今月は仕事がたくさんあったので、2回目である。9月は前期末の〆があり、9月末までに発生した研究費関係の書類を全部出しておかないといけないので、結構な作業量なのだ。毎度ながら、書類関係の処理をしてくださっている補佐員さん・職員さんたちに、足を向けて寝られない……。

1年を通して考えると、書類がもっとも多いのは2-3月(言語処理学会年次大会や、年度末の処理がある)ということが分かっていたのだが、もっとも少ないのは4-5月(そもそも研究費が配当されるのが6月以降なので、使えないために書類が発生しない)ということも分かってきて、ようやく慣れてきた感がある。(毎年担当職員さんが変わるので、4-5月に大量に書類を出しても迷惑かもしれないし……)

午前中は 研究室で ACL 2015 読み会ACL というのは自然言語処理分野のトップカンファレンスで、自然言語処理は最先端の研究成果はまず国際会議で発表するので、そこで発表される論文を読むことで、最新の知識と研究ネタを仕入れる、という趣旨で、研究室内で去年からメジャーな国際会議が開催されるごとに読み会を開いているのだ。

実際、紹介する論文を選ぶためには、一通り発表論文の全タイトルを眺める必要があり、これをしているかどうかで研究分野の見通しがかなり変わってくるので、ACL と EMNLP は可能な限り研究室メンバー全員に紹介してもらいたいと考えている(インターンシップ中だったりして、今回は全員は無理だが)。

今日は short の紹介が5本、long の紹介が2本あった。他の論文読み会はほとんどの人が long を紹介するので、short でおもしろい発表があっても漏れてしまいがちなので、これはこれで意味があるかなと思っている(short よりは long のほうがおもしろい論文に当たる率が高いと思うが)。

long では以下の論文がおもしろかった。

  • Ignacio Iacobacci, Mohammad Taher Pilehvar and Roberto Navigli. SensEmbed: Learning Sense Embeddings for Word and Relational Similarity. ACL-IJCNLP 2015.

これまでの word2vec のような単語埋め込みは、語義を考慮していない、という問題に対し、単語の語義曖昧性解消をして単語の埋め込み(正確には、語義の埋め込みなので、sense embeddings)を学習する、という話なのだが、最初ちゃんと理解しておらず、これは言っていることとやっていることが違うのでは? と思っていたが、何回か説明してもらってようやく納得。埋め込みを学習するためであれば、人手で語義をタグ付けしたコーパスは必要なく、自動でタグ付けしたコーパスでいい、という話のようだ。ほとんどアイデア一発であるが、たくさん実験をしてしっかり議論しているのが評価できる(EMNLP 向けなネタだとも思うが)。
short では以下の論文がおもしろかった。

  • Sho Hoshino, Yusuke Miyao, Katsuhito Sudoh, Katsuhiko Hayashi, Masaaki Nagata. Discriminative Preordering Meets Kendall's Tau Maximization. ACL-IJCNLP 2015.

H 野さんといえば、最近はずっと並べ替えの研究をされているが、日英翻訳で並べ替えをするとき、どのような並べ替えをすればよいか? というのが自明でなかった、という問題に対し、一つの解決策(決定版?)を提案している。原言語の構文木(2分木)を用いて事前並べ替えをするという問題に対し、並べ替える・並べ替えないという正解のラベル系列を作ることができる。提案手法は、正解の並べ替えの系列に対し、ケンドールのτが最大になるように並べ替えればよい(理論的にも最適)、ということを示した。こうすると、実は日英の機械翻訳で state-of-the-art(最高精度)を達成することができる、というお話でもある。

自分も以前日英機械翻訳機械翻訳による並べ替え問題に首を突っ込んだことがあるのだが、このときは「並べ替える・並べ替えない」という1回1回の事例の正解率を最大化するように学習していて、どうにも翻訳の精度向上につながらず、どうしたものか、と頭を悩ませていた(手法のせいなのか、それとも実装のせいなのかも分からなかった)。結局、このペアは間違えてもそこまで翻訳に致命的ではないが、このペアは間違えると大きく問題である、というようなペアの重要度の違いがあり、それを考慮しなければならなかった、ということなのだろう。(まあ、もっと言うと、ケンドールのτではなく、BLEU を最適化する並べ替えをするのがいいのだろうが、そこまで来るともはや事前並べ替えでやるべきことでもないようにも思う)。

10年も研究をしていると、それなりに取り組んだ研究のレパートリーが増えてきて、昔分からなかったことが分かったりするのはおもしろい。

そういえば、午後に9月修了の大学院生の学位記授与式があった。修士と博士を合わせて10人ほどという、小ぢんまりした式である。システムデザイン研究科は博士課程は10月入学できるのだが、修士課程は10月入学できないので、修士でこの時期に卒業するのはイレギュラー(留年もしくは休学すると、半年ずれる)なのである。

しかし、実は今回はうちの研究室初めての修士号取得者が出たので、感無量。首都大に着任したときに自分の研究室に B4 で来てくれた人たちが修士号を取るのは来年の3月なのだが、彼はその前の年に隣の研究室に M1 として入っていて、うちの研究室には M2 の5月に研究室変更で来たので、M2 になってかれこれ3年目なのである。研究室を変わると一からやり直しになるから、最低1年は余分にかかるよ、とは言ってあったのだが、1.5年余分にかかってしまったのは、自分の見積もりが甘かったので申し訳ない。結局、1年目は勝手が分かっていなかったため基礎勉強会の数があまりに少なかったのが問題で、2年目から来てくれていたら十分な数の勉強会があり、1年プラスするくらいで卒業できたであろう。

結局追いコンも来年の3月に一緒にやるし、内定先は来年4月からでいいそうなので、あと半年は修論を査読付き国際会議・論文誌に投稿してもらう、ということをしてもらう予定であるが、ひとまず順番に修士号を取得してもらうことができて、ほっとしている。