研究室の中の発表練習がいちばん厳しい

朝本郷の総合図書館で一休み。東京大学卒業生カードというのを作っているので一時入館証を発行してもらわなくても入れるのだが、どうやらカードの有効期限が切れたら入館証機能は失われるらしいので、継続するかどうか迷う。生協で購入するときは生協に入っていないと割引がないようだしな〜。まあ、来年度以降は本郷に来る用事も激減するだろうけど……

午前午後と昨日に引き続きNL研。質疑応答も含めて見ることができる。これは行かなくてもいいと思う人が増えるかもしれないが、ぜひ継続してほしい。

学生セッションでは@yusmiさんの固有表現抽出のための大規模訓練データの自動獲得がおもしろかった。タイトルから想像した内容とけっこう違ったが、医学文書の固有表現についている論文情報などのリンク構造と並列句解析を利用して、タグなしコーパスからでも人手で整備したタグつきコーパスに迫るくらいの精度と再現率のコーパスが作れる、という話。

言語データではない外部の情報を使ったというところと、並列句になっているところは同じような単語が来やすい(今回では固有表現)という言語学的なヒューリスティックの合わせ技が個人的にヒットであった。SVM の実装によるメモリ上の制約で大規模に獲得したデータの10%しか使えなかったということだが、単純なオンライン学習でいいので(SVM でも線形カーネルなら liblinear とか使えば速いし)全データ使って実験したらいいし、全データをとりあえず使ってみて、この手法で解けない問題はなにかという問題を分析するとよいのではないかと思う。

manab-ki くんがひょっこり来ていてびっくりしたが、@zelchmixijp さんの部分的アノテーションから学習可能な係り受け解析器も個人的にはおもしろかった。最終的にできるのは単語単位の係り受け解析器なのだが、文節単位の(主辞から主辞にかかるような)アノテーションだけから学習できるみたいだ。複合語解析もしばらく松本先生が興味を持っていたが、普通の文節単位の係り受けのデータに加え、(訓練事例が1文単位でなくていいので)複合語のデータも使えるだろうし、単語単位で動く日本語の係り受け解析器が簡単に使えないので日本語の統計翻訳に係り受け木(森)を使いにくかったりするのも、こういう研究があれば解決するのかな、と思ったり。

夕方、学生奨励賞の表彰式。学生セッションでは8件の発表があり、2件会場の人の投票(各推薦用紙の7点満点の評価の平均点)で決定されるのだが、2件とも松本研。teruaki-o くんの古文に対する濁点の自動付与の研究と、@shirayuくんの述語間の格構造の類似度に着目した述語項構造解析の研究。両方いただけるとは〜。

id:ny23 さんが論文の賞は共著でもらう方が嬉しいものと書いているが、確かにそうだな〜。こうやって自分がこれまで教わったことを多少なりとも後輩(学生)にお返しできているかなと思う。国際会議→論文誌まで来て一息だが、その場でこうやって評価が見られるのは (研究生活のサイクルは長いので) 嬉しいものである。

自分も論文やスライドに赤入れるときはけっこう入れるほうなので、2人ともよくがんばったと思うが、松本研のよいところは、研究室内でそれなりのクオリティを要求されるので (発表練習のときの松本先生のコメントも厳しかったし)、研究室内で受けたコメントを反映していくと一定の水準の研究になるところである。

誰かが「松本研の中の発表が一番緊張するし、一番コメントがきつい。学内の発表や対外発表は緊張しないし、コメントもきつくない」と言っていた記憶があるが、中で大きな穴はそれなりに塞いでおくために、きつく聞こえるコメントもあるのだろう (様々な事情により、塞ぎ損ねた穴が残ったりすることはあるが……)。

なので、進捗報告するのはおっくうと思う気持ちは (自分も先日まで学生だったし) 痛いほど分かるのだが、勉強会とか研究会とか、あるいは直接スタッフなり先輩なり同期なり後輩なりを直撃するとか、研究のコメントがもらえる機会を最大限に活用してほしいと思っている。