言語処理必要なのは言語学

午前中、社会人博士の人とミーティング。今休学中だが、復学予定で、来年度以降の研究についてのディスカッションをしたり。結局、どこまで自分で手を動かし、どこから他の人に協力してもらうか、という話になるのだが、ちゃんと仕様を決めて発注するためには、それなりに自分で作れないと発注もできないので、最初はそこそこ勉強する必要がある、というパラドックスである。ただ、大学院は勉強する時間も取れる期間ではあるので、腹をくくってしばらく時間を使う、というのが急がば回れで最終的には短い時間でできそうに思っている。

昼からは論文紹介。

  • Barzilay and McKeown. Extracting Paraphrases from a Parallel Corpus. ACL 2001.

を紹介してもらう。古きよき時代の論文で、最初期の半教師あり学習を用いた言い換え抽出の研究である。研究を始めたばかりの人は、機械学習の細かいところで理解できなくなるのはもったいないので、こういうストーリーや気持ちがはっきりしている論文を読んだ方がいいのかな、と思った。逆に、90年代あるいは2000年代初期の論文で、なんでこんなことをしているのか分からない、という人は、そもそも自然言語処理の論文を読む絶対量が足りていない(言語学的な知識というか直観が不足している)のではなかろうか?

午後は研究会で、言語処理学会年次大会の投稿希望者の目次発表。来年の国際会議投稿シーズンに論文を投稿するための登竜門なので、未発表の研究ネタのある人はこの機会に発表してもらいたいのだが、9月の NLP 若手の会シンポジウムで発表した4人中、1人しか発表しないのはちょっと気になっていて(1人は12月の NL 研で発表するので構わないが)、原稿を投稿したことで発表したくなくなるのであれば、来年以降は原稿の投稿はしなくていいんじゃないかなぁ(そもそも、これまで原稿は投稿していなかったし)。

とはいえ1日で6件の目次発表があり、終わらなかったので残りは来週に持ち越し。発表は10件程度になるかな? 研究室に20人学生がいるので、半分が発表、というのは悪くない数字だと思う(新入生以外は原則として毎年1回対外発表してもらっている)し、研究会や全国大会で発表した内容のうち半分くらいは(本人が投稿したくなくならない限りは)最終的に国際会議に持っていけるので、今年以上に研究発表する、という目標に向けて始動である。