まず最初確認するのはインプット

朝起きて RA(リサーチアシスタント)の書類作成。8月は RA の審議をする委員会(任用審査会)が開かれないので10月からしか開始にできないのだが、その前にコース会議で審議しておいてもらわないといけないのである。

大学で雇用するにしてもプログラミングのアルバイトであれば依頼する教員だけの裁量でできるのに対し、RA はコース会議、任用審査会(コース長会議)、教授会の承認が必要なので、採用に関するハードルが全然違う。同じようなことをするにしても、学生が履歴書に書けるように、と思ってやっているのだが、割に合っているのだろうか……(たとえばアルバイトだと論文を書いたりするのは依頼できないのに対し、RA は論文を書くのも業務にできるので、雇うなら RA にした方がいいのだが)。一応自分でも基準は決めていて、RA として採用するのは査読付き論文誌に採録された経験がある、または英語で論文を公開したことがある(国際会議に投稿だけではダメで採択が必須、arXiv は査読なしだけど公開されるので可)人だけにしているのだけど。

昼から研究会。NLP 若手の会シンポジウム(YANS)の進捗報告。今年は B4 の5人が全員 YANS に向けて研究をスタートしているのだが、研究テーマが全員異なる(1人は Wikipedia マイニング、1人は画像キャプション生成、1人はニューラル機械翻訳の評価、1人はニューラル機械翻訳のモデル改善、1人はクロスリンガルな単語の表現学習)ので、進展具合もバラバラである。どのようなタスクをどのように進めるかについてはほぼメンター(M1/M2)に一任しているので、自分も(メンター自身の進捗報告の中で間接的に報告してくれる場合を除いて)初めて聞く内容が多いのだが、結局「このタスクの入力は何で、出力は何で、入力は現在どこまで準備できているのか、出力は出せているのか、出てきた出力はどう評価するのか、そして最後にこの研究の新規性は何か」ということを全員に確認して回る。

B4 の研究全てでそれを確認しないといけない、ということは、これが重要であることが(メンターを含めた)研究室メンバーに十分伝わっていない、ということなのだが、これらが重要であることが分かるのは NLP の研究に従事して2〜3年目くらいだと思った(査読付き国際会議に投稿した、あるいは通した経験の有無と相関がありそう)ので、仕方ないのかもしれない。2年目のメンバーでもこれができるようにするには、1年目の終わりに国際会議に投稿してもらわないといけないわけで、現在の歩留まり(進学・入学してから1年後に国際会議に投稿できているのは、新入生の半数程度)をもっと上げる必要がある。とはいえ、英語の論文は添削できる絶対量に限りがあるので、現在十分に見られる量から逆算すると、学生数を約半数にしないといけない、ということである(だいたい結論は毎回同じだが)。

みんながみんな YANS で発表する必要はないし、拙速で発表するよりしっかり研究して国際会議に投稿した方がいい(上記のように、ポスター発表をした経験は研究的には大したことなくて、論文をしっかり書いた経験が研究力に直結する)と思うのだけど、修士で就職する学生からすると国際会議に投稿するモチベーションより外部の人(エンジニア、学生、etc)と交流するインセンティブの方が高いかもしれないので、難しい。ここ1-2年、外部からの大学院受験生は、そういう感じの人はそもそも受験を遠慮してもらえるよう伝えている(原則博士後期課程に進学希望の人しか博士前期課程の受験を認めなかったりしている)ので、影響は限定的だと思うけど……。(そもそも発表なしで聴講に行きたい人でも研究室から沖縄までの旅費を補助するとアナウンスしているわけだし、発表ですら YANS には旅費を出さない研究室も珍しくない事実からすると、かなり優遇しているつもり)

夕方は EACL 2017 読み会(やっと)で以下の論文を紹介してもらう。

  • Xingxing Zhang, Jianpeng Chen, Mirella Lapata. Dependency Parsing as Head Selection. EACL 2017.

これは依存構造解析に関する研究で、依存構造解析とは入力の単語列から依存構造木を出力するタスクで、木を出力するための制約をいろんな形で入れたりするのが一般的なアプローチ(たとえば最小全域木 Minimum Spanning Tree を求めるグラフベースの手法)だが、それぞれの単語に対して主辞を求めるだけでほとんどの場合は木になっているという事実から、出力が木でなければならないという制約を特に課すことなく各単語で独立に依存構造解析しても(ただし、出力が木でなかった場合は MST にフォールバック)、高い解析精度が得られた、という話。

単語ごとに独立に主辞を選んでもだいたい正しい、というのは自分もどこかで聞いたことがある知識だったが、それを実験的にちゃんと示したというのはおもしろい研究である。実用的にも単語ごとに解析すればいいなら並列で計算すれば解析の計算量は O(1) な訳で(素性抽出の方がボトルネックになりそう)、有用性も高い(木でなかった場合の最悪計算量は普通の構文解析と同じだし、木かどうかチェックしないといけないので、そこに O(|E| + |V|) かかるが、素性を計算して依存構造を求めるのと違って軽いはず)。

こういうおもしろい研究をする人(研究室)、自分の中では Mirella Lapata さん以外には Regina Barzilay さん、Marti Hearst さんがいるのだが、そういえば全員女性である。何が違うんだろうか?(ちなみに一番好きなのは Regina Barzilay さんの研究で、いつもどうやったらこんなアイデアに着眼できるんだ?と思ったりしている)