独立に到達したら正しそう

午前中は EMNLP 2016 読み会。なんで修論言語処理学会年次大会の原稿〆切前のこの時期に、とは思わなくもないが、こういう機会で強制されないとなかなか論文を読まなかったりして、研究にそこはかとなく支障が出ているので、半ば強制的だが開催することにしたのである。

今日紹介してもらった中では、

  • Huang et al. Distinguishing Past, On-going, and Future Events: The EventStatus Corpus. EMNLP 2016.

が興味深かった(ラストオーサーは Ellen Riloff)。ここで対象となっているのはデモやストライキなど、政治に関する事象のアノテーションだが、我々が浸水害情報の自動解析のために、いつ浸水害が起きたのか、という情報を天気情報共有サイト(ウェザーニューズのウェザーリポート)のテキストにアノテーションしたのだが、ほぼそれと同じようなスキームでアノテーションしている。

事象構造や時間の基礎解析を考えるともっと複雑な関係をアノテートしたりするのだろうが、最終的なアプリケーションを考えるとこれくらいの粒度でつけるのが(一致率なども考慮すると)よい、というのが、全く独立にタグを設計しているのに一致するというのは、興味深い知見だと思っている(M1の8月からかれこれ1年間くらいかけて、アノテーションをしては見直して、というのを何度も何度も繰り返しているので、個人的にはとても思い入れのある研究である)。

論文紹介に関しては、来年度は論文の精読を今の形でやるのをやめ、スライドを用いた論文読み会スタイルの多読をたくさん入れようと思っている(少なくとも全員月1回は回ってくるくらいのペースで)。精読は精読で大事なのだが、学生の英語力に個人差があるので、「精読」するなら全員事前に読んできた上でレジュメを作ったりして議論しないと、全員で読む時間がもったいない(そもそも留学生がいるのに、英文和訳教室に時間を費やすのは申し訳ない)のである。読んで説明する段階で理解不足に気がつくことが多いので、もっと機会を増やすべきだというのが今年度の反省である(あと、発表が当たっていたら緊張感を持って出席してくれるだろう、というのもある)。

午後は研究会で修論の確認。修論は本文30ページ程度(PDF だと表紙や要旨や目次が入るので、40ページ程度)書くように指示しているのだが、研究科によってはページ数の上限が指定されているケースもあるようで、味わい深い。昨年度の修論生6人の修論本体のページ数の平均は29.83ページなので、うちの研究室だったらそれくらいかなぁ、と思うのである。最後1〜2月に追加する部分を入れるとみんなそれくらいにはなりそうなので、ちゃんと要求された内容を追加してほしいと思っている(「こうしてほしい」と言った部分は対応してくれないと不合格にしないといけないわけで、対応できると思われる内容しか言っていない・今後も言わないだろう)。