最初も最後も参照すべきはアノテーションマニュアル

朝はたまたま秘書さんと同じバスであった。豊田駅から大学の前に行くバスは1時間に1本だけ(大学の近くまで行くバスは10分に1本)なので、歩く距離を最小にしようとすると同じバスになるのである。とりあえず隔週で来ていただいているので、溜めておいたお仕事をメールでお知らせしたり。本当は前日の夕方くらいにメールしておけばいいのだろうが、いかんせん時間がない(汗)

お仕事を依頼して、自分の午前中は論文紹介である。今日は

  • Ang Sun, Ralph Grishman, Satoshi Sekine. Semi-supervised Relation Extraction with Large-scale Word Clustering. ACL 2011.

を紹介してもらう。関係抽出に単語クラスタリング(Brown Clustering)の素性をいろいろなやり方で入れて比較してみた、という内容。そんなに目新しい話ではなく、ACL というよりは EMNLP 向きな気はするが、サーベイ論文的にまとまっているので、こういう勉強会で紹介するのはよいかもしれない。

今回特に感心したのは、発表者が ACE のアノテーションマニュアルも読み込んで(PDFにいろいろ線が引いてあった)きていて、このタグとこのタグの違いは?というような質問にもさっとマニュアルを出してきたところ。ACE といえば情報抽出で有名なプロジェクト(現在は GALE や TIDES という別のプロジェクトに引き継がれた)であるが、自分も M1 で松本研に入ったとき、情報抽出勉強会か意味談話解析勉強会のどちらかで、ACE のアノテーションマニュアルをみんなで読んだ記憶がある(まさしく GPE というタグとはなにか、という議論をし、みんなで定義を確認した)。結局のところ、自然言語処理のタスクであれば、最終的にどういう言語現象を対象にしているかが重要で、そのときアノテーションマニュアルを遡る必要があるのである。

あと、今回の論文を理解するためにSLP(教科書)の情報抽出の章を読んできていて、適切に補足してくれているのもよかった。結局のところ、研究を紹介しようと思うとその論文だけを読めばいいのではなく、そこから参照されている重要な論文の内容は知らないと紹介できないし、そもそもタスクや手法について理解していなかったら論文を離れて調べておかないと説明もできないし、そういう下調べも全部含めて「論文紹介」なのである(紹介する論文だけ読めばよい、と思っている人もいるかもしれないが……)。

また、今回クリティークした人も、(言語は英語ではなく日本語だが)固有表現認識のタスクでクラスタリング素性をいろいろいじった経験があり、よい研究の方向性(つまり新規の研究ネタ)を提案していたりして、有意義な勉強会であった。まだこの形式にして3回目だが、クリティークする人を決めておくのは割と効果があるように思う。

昼休みを少しだけ挟んで午後は打ち合わせ。最近でこそ大学の仕事にも慣れてきたのだが、去年の4月はほとんどインストラクションなしに突然実戦に投入されて、かなりしんどかったのを思い出した。あまり新人が入ってこない組織だと、どうしてもそうなってしまうのだろうな……。

夕方からNLP自然言語処理)若手の会の新旧委員長の Skype ミーティング。

良くも悪くも最近は毎年シンポジウムに100人弱集まるようになっているので、それなりに組織化・マニュアル化しないといけない。個人的にはプチ学会みたいになったらつまらないと思う一方、賞の権威やシンポジウムの格を考えると学会っぽくしたい人もいるだろうし、この規模になり、かつこれだけ歴史があると、どうしても行き当たりばったりでは許されない感じになっている感はある。3年間乗り切れて、ほっとしているところである(本当にこの3年間いろいろあった)。

若手の会の委員長を務めてみて、他の人の働き方を見ることができたのはとても大きかった。もちろん、他の学会の委員会に出て、一見無駄に思えるシステムが実は合理化によってその形になっていることが分かったりもするのだが、若手の会に特有なのは、歴史ある学会の引き継ぎによってシステムが回っているのではなく、それぞれの個人がそれぞれの組織で経験しているベストプラクティス的なものが導入される(こともある)という点である。本当は学会でもそうなればいいのだろうけど、学会はそのようにするには(人工知能学会だけは例外だが)動きが遅すぎるだろうな〜。