毎年継続的に改善していく

朝に離乳食でジャガイモのポタージュ的なものをあげる。嫌がってはいないが、あまり食べてくれるわけでもないような……。ツブツブすぎてもいけないし、サラサラすぎてもいけないし、難しいものである。

午前中は論文紹介。

  • Jun'ichi Kazama and Kentaro Torisawa. Inducing Gazetteers for Named Entity Recognition by Large-scale Clustering of Dependency Relations. ACL HLT 08.

を紹介してもらう。これも ACL というより EMNLP 向きの内容だと思うのだが、大規模に並列分散で名詞のクラスタリングをして、辞書的に固有表現認識の素性として用いることで、固有表現認識の精度を上げました、というお話。手法のポイント的には並列化したところで、既存の研究の延長線上でしっかり実験をしてある(用いたパラメータについてもちゃんと記述している)ので、再現性も高い。

海外の大学や研究所も、一連の研究で少しずつ改善した内容を ACL に出してくるので、こういう戦い方もあるのだなと思ったりする。結局大学でこういう研究スタイルにしようとすると、博士後期課程の学生がいないとなかなか継続的に研究できないと思われるが……。

お昼は IIR(情報検索の基礎)勉強会である。後期は機械学習関係で飛ばした章をやるようだ。前期でみんな力尽き、後期は流れるのかと予想していたのだが、あにはからんや、後期もちゃんと全部の章をやるらしい。自分の番が来ないと思っていて、誰も手を挙げなかったテキスト分類とナイーブベイズの章をやることにしていたのだが、この章は後期のトップバッターだったので、ざっくりそれらについて説明する。Complement Naive Bayes のような最近のナイーブベイズの話をしたり、AODE のような条件付き独立性の仮定を弱めた手法の紹介をしたり。Weka に実装されているようなので、試そうと思えばすぐ試せると思うし。

実は、機械学習の勉強をしたいなら、この本ではなくちゃんと機械学習の本を勉強した方がいいと思っていたのだが、機械学習の研究がしたいわけではなく、完全にユーザとして機械学習を使う(というか、そもそも研究で機械学習を使わない人もいる)とすると、これくらいの内容の方がいいのかもしれない。いずれにせよ、来年は機械学習の勉強会をスタートしたい(論文紹介で NIPS や ICML の論文を紹介した人は過去にいないので、あまり機械学習の研究をしたい人はいないのかもしれないけど)。

夕方に実験に関する打ち合わせ。来年度、B3の実験で(自分が発案の)新しいテーマを立ち上げることを検討しているのだが、実験は准教授が担当するものではなく、いろいろと調整が必要なので、一席設けていただいたのである。B3の人たちの様子では、実験は改善の余地があるような雰囲気なので(去年は実験がどのように進むかすら把握していなかったが)、ちょっと変えてみようと思う次第である。

合間合間に研究費の書類を仕上げたりする。今回はちょっと勉強して書いたので、内容が7割方書き下ろし(背景の部分なんかは、過去にダメで世に出ていない申請書をベースに手直し)でいつもと感じが違うかもしれないが、勉強して書いた方が書いて満足感があるのでよい。知っていることや考えたことで書いても、書くことで思考が整理されるメリットがあるが、落とされた研究費の申請書のストーリーの部分を大きく変えずに出しても、大体再度落とされるのである。あまり研究室を空けない松本先生がしょっちゅう国際会議に出かけるのは、外に出かけることで数年単位での研究ネタを考えているのかなと思ったりした。