自然言語処理の若手として何ができると嬉しいか

情報理論の授業は今日を入れて残すところあと3回。最後の授業はまとめをやることにしているので、実質あと2回である。あっという間だったなぁ。

小テストのときに実施したアンケートで、「自然言語処理に興味があるのですが、何から学べばよいですか」という質問があり、ちょっと調子に乗って説明していたら、授業時間が足りなくなって焦る。演習問題をたくさん入れたら、そのぶん内容は減らさないといけないのであった。どうやら、自分は講義形式の授業で演習問題を入れるのが苦手らしい。チュートリアル形式で、みんなとインタラクティブにやるのは好きなのだけど、講義でも同じようにできないかな?

ちなみにそのとき勧めたのは [twitter:@mhagiwara] さんによる Python による自然言語処理。無料で読めてそれなりに分量があり、まんべんなく自然言語処理の内容をカバーしている文書はこれくらいではないかと思う。あとは [twitter:@neubig] さんによる チュートリアル資料。プログラミングしながら広範なトピックが学べるという点で、この資料もすばらしい。後者が他の資料と比べて特に優れているのは、自然言語処理のツールを「使う」のではなく「作る」という立場で書かれていることで、これは自然言語処理が専門でもないかぎりやらないことだと思うので、自然言語処理を研究したいという人にはとても貴重なテキストではないかと思う。

逆に自然言語処理が専門でない人はツールを「使う」側のテキストがほしいのかもしれず、それらは検索すると見つかる一方、まとまってなくていろんな場所に散らばっているので、それらにフォーカスを当てた資料もあるとよいのかもしれない。ただし、原理を説明すればよい「作る」方法と違い、特定のツールの「使い」方に特化して書かないといけないという制約があり、常に更新しないとすぐ陳腐化してしまいそう。機械学習の「朱鷺の杜WIki」みたいな感じで、みんなで更新できるようにしたらいいのかな。自然言語処理の若手の会の Wiki も存在して、一時期そういうことをしようとしていた気がするのだが、どこかに行ってしまったな〜……。

昼過ぎ、原稿のチェックとSkypeミーティング。追加実験もさくっと入れてもらい、スムーズに進む。タスクと手法自体はかれこれ2年以上前から取り組んでいるもので、何が問題でどういう特徴があって、ということは分かっているつもりだったが、最初の実験をしたときからはだいぶ時間が開いてしまったので、「なんでこれをしたほうがよかったんだっけ?」というようなところを忘れていたりして、それを思い出すのに毎回ミーティング時間の大部分を使っている気がする……。

とはいえ、こうやって昔の研究を掘り起こすのは実験をしている本人が一番苦しいものだと思うし、偉いものである。自分も修論の研究をD1のときに国際会議で発表したものの、研究テーマが変わったこともあってしばらく放置していて、最終的に論文誌になったのはD3の卒業間際だったしなぁ。

合間の時間を縫って全学のウェブサイトの更新。大学には、自分の研究室サイトの個人ページ、情報通信コースの教員紹介ページ、システムデザイン学部の教員紹介ページ、全学の教員紹介ページがあり、複雑怪奇なことになっている。しかもそれぞれ更新方法も異なれば、担当者も違うし、同期を取ることが至難の技である。歴史的経緯やシステム上の都合でそうなっているということも分かるのだが、外部の人が見たらほぼ内容が同じで微妙に違う (あるページは研究室サイトのリンクがあったり、あるいはべつのページは居室の場所が書かれていたり、はたまた違うページにはオフィスアワーが書かれていたり) ページがたくさんある意味不明だと思うので、せめて学部とコースのページは統一してくれないかなぁ。

午後はNLP若手の会シンポジウムの仕事。そろそろいろいろなことを確定させないといけない時期のようである。今回は共同委員長として主担当ではないのだが、それぞれ分担して進めているところである。結局9月2-3日の開催 (1日に前夜祭的なイベントがあるかも?)、場所は東大本郷キャンパス福武ホールというところまでは確定しているのだが、そこから先の詳細はまだまだ……。

夕方、定例のSkypeミーティング。ペアプログラミングというわけではないのだが、話しながらデバッグしたり開発。自分が手を動かさないとにっちもさっちも行かないところに来てしまったようで、ちょっと時間をもらう。外から見ると簡単にできそうに見えるが、実はけっこう厄介なのである (まあ、現実のタスクというものはどれも多かれ少なかれそんなものだと思うが)。

夜は学科内の用事のメールをしたり、原稿のチェックをしたり。チェックをしていて思ったのだが、自分の中では共著の論文の添削が一番プライオリティが高い (他の仕事に優先して割り込む) のかもしれない。(もっとも、それでも時間が取れず2週間以上放置せざるをえないことも多々あるが……)