さりげない単語一つに気をつける

午前中、立川の統計数理研究所にてミーティング。時々外部の人と話すのは勉強になってよい。このプロジェクト、B4 の学生と一緒にやっているのだが、B4 の学生に対するコメントを聞いて、松本研っぽさを感じる。ちゃんと数式の意味を理解して使わないとだめだよ、という。

数式の意味を理解して実装する、ということは NAIST 松本研で大いに学んだことであるが、このあたりをすっ飛ばして適当にツールを動かして結果が出たら機械学習をしたつもりになる（モデルはおろかパラメータの意味も分かっていない）、という学生が実に多い。それはそれで仕方ないし、最初はそれでもよいと思うのだが、研究室を卒業するまでにはちゃんと理解してほしいし、論文紹介（サーベイ報告・論文精読）でも数式の意味（気持ち）を理解することを重点的に訓練しているつもり。

繰り返しになるが、他の人の論文紹介（あるいは教科書の輪読）のとき、ボーッと聞いている、他の作業をしている、寝ている、あるいはそもそも欠席する、と全然訓練にならないので、自分が紹介する論文以外の話もちゃんと聞いて（理解しようと努力して）ほしい。数ヶ月で大きな差になってしまうのだが、やらない人はやらないし、卒業してから重要性に気がついても、大学を出るとこういう勉強が困難になってしまうのだが……。

というようなことを以下を見て思った。

午後は研究室に移動して、情報抽出・深層学習勉強会。本来午前から午後にかけて実施しているのであるが、今日は午前中に外出していたので、午後にしてもらったのである。

情報抽出勉強会、最近深層学習勉強会との差があまりなく、5人いるメンバーのうち機械学習の手法を取っている2人は深層学習を何らかの形で用いているので、機械学習っぽくない研究テーマの3人が伝統的な意味での情報抽出である。個人的には「取れたデータ（アノテーション）が貴重あるいはタスクが新規」というの以外では、手法（ベースライン）はその時々で妥当なものを使うべきだと思うので、情報抽出研究の人たちが（リソース構築の研究をするのでなければ）深層学習に合流するのはやむなし。

情報抽出勉強会で先週・先々週に引き続き深層学習の実装のデバッグをする。コードを見る限り不審なところはないのだが、出力結果（モデル）を見るとどうもおかしい、というのが先週までのサマリーで、今日も小一時間かけてみんなで議論しつつ見てみたところ、どうも数式の理解が間違っていて、本来 [0, 1] の範囲に値がないといけないのに、任意の値が取れるようになっていたのが問題のようで、最後 softmax をかけてみたところ、正しく動くようになったようだ。そういう目で論文を見ると、確かに probability と書いてあるので、当然といえば当然なのであるが、1単語たりともおろそかにすると痛い目を見る、というのは実装あるあるなので、こういうところに気をつけるべし、というのが共有できてよかった（と自分は思っているが、みんな聞いていたかどうか不安ではある）。

一転深層学習勉強会であるが、こちらは今週みなさんあまり進捗なし。水曜日に PFI で NLP-DL 勉強会があり、そちらに行っていて1日つぶれた、という事情もあるだろうが、言語処理学会年次大会で発表するためのスケジュールを考えると、今月が本当に正念場だと思うので、発表したいと思っている人は研究に相応のエネルギーを割こう。

自分の見た感じ、言語処理学会年次大会に関して、研究室内の M2 で発表できそうなのは2人前後（これとは別の2人は1月の NL 研で発表）、M1 で4人前後、B4 で3人前後、B3 が全員合わせて1件の合計10件程度で、20人の研究室、という規模からすると、こんなものかな？　と思ったりする。NAIST 松本研の助教2-3年目は、年次大会での自分関係の発表は年間8件程度だったので、研究室3年目にしてようやく助教のころの水準に戻ってきたかなと思っている。10本くらい発表できればそのうち半分くらいを国際会議に持っていけるので、来年は今年以上を目指したい。