日本の自然言語処理の1/3は松本研関係者

体調が悪かったので、夜は二度寝してしまった。今週から寝るときはタイマーで冷房もしくは除湿をかけているのだが、ちょっと自分には寒いのかもしれない(体温が低いと調子が悪くなる)。少し暖かくして寝ればいいだけだが……。

朝は早めに出て委員会。なにをやるにしても委員会がある、とは聞いていたが、段々こういう会議に出なければならないことが増えてきた。もっとも、今回の委員会は、今年度の前半で0.5コマぶん授業を代わりに分担してくださったこともあり、自分がやったほうがいい内容なので、断る理屈もない。

こういう話になると、総論賛成各論反対になりがちだが、やりたいと言う人がいたらやってもらえればいいと思うし、失敗したら失敗したでいいんじゃないかなぁ。改革するということは失敗するリスクを取るということで、うまく行かなくてもいいんじゃないかと。あと、どうしてもコース横並びになってしまうのだが、これはどうにかならないものだろうか。仕方ないとは思うのだけど、やりたいコースだけでいいんじゃないのかな……(オープンキャンパスのように、戦略的に全コースがやる必要のあるものであれば話は別だが)。

午前中は自然言語処理の基礎勉強会(Speech and Language Processing の輪読)。未知語や言語モデルの評価(パープレキシティ)、低頻度語(というか低頻度 N グラム)への対応(スムージング)の話。この辺は、自然言語処理の研究室を出ました、というなら、どのいうな研究テーマをやってようが、必ず知っていなければならないような内容なので、まさしく基礎である。ただ、直接このあたりの知識を使うような研究テーマをやる人って、10人に1人くらいしかいないようにも思う。研究で使うかどうか分からない(使う可能性が低い)内容って、つまらなく感じてしまうのかな〜。

午後は研究会。進捗報告をしてもらっているのだが、具体的な話をしてもらわないと議論のしようがないので、どれくらいのデータを処理してどうなったのか、実際の出力はどうだったか、などということをしつこく問いただす。このあたり、適当にしていると、いつまでも何もできないことが往々にしてあるので……(あまりこういうマイクロマネジメントはしたくないのだが、慣れないと自発的にできないので、訓練だと思ってやってもらっている)。

進捗報告って、そこでみんなからフィードバックをもらうためにやっているのだから、フィードバックできそうな内容を話してくれないとだめなのだが、思い返してみると自分の進捗報告もフィードバックしにくい形式のスライドが多かったので、反省することしきり。結局、実験を伴うような進捗をしないと、そのような進捗報告の仕方が分からない、という問題であったようである(ということが分かるのに、3ヶ月かかった……)。

あと、共同研究関係で、B4の人にとあるコーパスにタグ付けをしてもらっていたのだが、いろいろ分かっておもしろい。自分がアノテーションに向いているかどうか分かるし、最初にこういうタスクに取り組んでもらうのも悪くない(ただし、タグ付けはどうしても性格的にやれない人がいるので、強制はできないのだけれども)。

研究会のあと、企業の方々の来訪。かれこれ、首都大に来ていただくのは3回目である。ひょんなことからD山さんと再会する。NAIST松本研出身の人なら「D山さん」で誰のことか通じるのだが、自然言語処理業界の方であれば、Yamada and Matsumoto (2003) の Yamada さん、というのでお分かりいただけるであろう(いま Google 検索で「yamada and matsumoto」まで入れたら「2003」が予測候補に出てきたくらい)。

D山さんと最後にお会いしたのは去年の松本研20周年記念のときだったと思うが、松本研は200人以上OB/OGがいて、どこに行っても松本研関係者がいるように思う(「関係者以外立ち入り禁止」的な意味での「関係者」だが)。世界は狭い。

D山さんにはうちの学生たちに、企業で自然言語処理する楽しさや魅力を存分に語っていただいて、とてもありがたい。というか、D山さんがいらっしゃるなら、むしろ常時インターン生として常駐してお願いしてもいいくらいだったりして(企業との連携講座として学外で主に研究する学生が籍を置くような感じ?)。制度的に実現しようとすると、いろいろと面倒くさいのだろうけども。

せっかく来てくださったのに、自分はというと翌日の準備などあり、ご飯をご一緒どころか帰りもご一緒できず、無念であった……(子どもが小さいうちは子どもが最優先なので、不義理なことをたくさんしていると思うが、ご容赦いただきたい)