NLP2016 初日: 仙台で年に一度のフェスティバル

今日と明日が言語処理学会年次大会の参加日。チュートリアルが月曜日で、本会議が火曜日から木曜日まであり、金曜日にはワークショップまであるのだが、自分は火曜と水曜のみ現地参加、金曜日は自分の発表だけ Skype 参加である。

午前6時に家を出て東京駅経由で仙台へ。上野の方が近い場合もあるようだが、東京駅の方が慣れているので……。

仙台で朝ずんだ餅を食べてみる(多分もうそういうことをする時間がないと思うので)。少し注文が遅れたので、サービスと称してずんだシェイクを無料でつけてくれた。ラッキー。

午前中はポスター発表である。学部3年生の O 崎さんの発表なのだが、地道に Twitter  データを分析して形態素情報をアノテーションした、という内容である。研究室配属は4年生からなのだが、「研究室インターンシップ」と呼ばれる仮配属制度(どこの研究室に行くかはランダムだが、必修の単位なので、出席しないと自動的に留年)でうちの研究室に来ていて、たまたまうちの研究室志望でもあったようなので、論文を書いて発表してもらったのである。

自分は遊撃隊として、ポスター発表を聞きにきた人に背景や内容を説明していたのだが、一番多かった質問は「なぜ KyTea で解析したのか?(UniDic 基準にしたのか?)」というもので、これは、最終的にはここでアノテーションしたデータから形態素解析器を学習するところまでをやってもらおうかと思っていて、学習プログラムまで含めて使いやすかったのが KyTea だったからである。ただし、「超短単位」と呼ばれる、述語の活用を分割する KyTea 独自の基準は、4人でアノテーションしたら間違えやすい箇所であることが分かったので、合議の結果採用せず UniDic に揃えたのであった。

4人とも黙々とアノテーションしてくれて、毎週結果を全員で見るのがおもしろかったので、このプロジェクトはみんなでやってよかったと思っている。Project Next NLP でエラー分析のワークショップが開催されたが、まずこういうように既存技術のエラー分析からスタートし、それを解消するためのリソースを(労働集約的に、しかししっかり議論しながら)作る、というのは、研究を始めた早い時期に(どのタスクでもいいので)やってみるといいのでは、と思った。

お昼は言語処理学会の総会。今年度で言語処理学会編集委員は任期満了でお役御免となったが、代議員としてお声がかかったので、お引き受けしたのである(お仕事は年に1回年次大会の総会に参加すること、という、大変ライトな感じだったし)。言語処理学会員の代表として、学会の発展に寄与していきたい。

午後はまたポスター。学生3人の発表が同一セッションに入ってしまったのだが、10件あったら被るのは仕方ない。数えてみたら、共著も含めて10件の発表というのは今回最多タイ記録で、他に10件発表されているのは名古屋大学の佐藤先生と長岡技術科学大学の山本先生である。両先生との大きな違いは、いずれの先生方も筆頭著者としての発表を抱えつつ共著で発表されているので、これは尋常なことではない、と敬服する次第である。

自分は教員になってから、自分で実験して筆頭で論文を書いたことがない(実験せずに論文を書いたことと、一部実験したけど自分では書かなかったことはある)ので、これはすごいと思っている。ただ、筆頭で論文を書く時間を捻出するために、学生と一緒に研究する時間を減らすのは不本意なので、しばらく筆頭で書くのは無理であろう(サバティカルを取れたらチャレンジしてみたい)。

ポスターはラベル伝搬を用いた対訳辞書構築のお話と、日本語の語彙平易化・類似度のデータセット構築のお話。

前者は手法・タスク的には自分が博士後期課程のときに手がけていた研究の一つなのだが、それとは全く独立に学生が進めた研究テーマで、ここ5年くらいの自分が追いかけていない時代の先行研究なんかをいろいろ紹介してくれたりして、勉強になった研究である。今回の実験では結果はいまいちだったのだが、分散表現の学習とも親和性が高いテーマなので、何か新しいことができるのでは、という気持ちになった。

後者は読解支援勉強会で進めていた研究テーマ・データ構築で、地味な話ではあるのだが、長く使われるデータセットを目指して、コツコツと進めているタスクである。色んな方々から、リソースを作っていてすばらしい、と激励していただいた研究たちである。クラウドソーシング(ランサーズ)を用いてデータを構築する、という経験が自分になかったので、研究室としてクラウドソーシングの知見が得られたのも大きい。

せっかく作ったので、リファーできるような論文があるとよいのだが、(特に日本語に)リソース作成系はなかなか国際会議には通りにくいので、悩ましい。やはりベストなのはデータ作成と手法の両方に取り組んでフルペーパーとして発表することで、どちらか片方だとショートペーパー程度の貢献になってしまうし、データ作成部分だけだと評価されにくい問題があるので、一般的にはフルペーパーを目指して研究できるといいのかなと思った。

午後は対話のセッションに出てみる。満席。すごい人気だ……。質疑応答がおもしろく、最近参入した人と昔からやっている人とで温度差があり、そのギャップが大きいのが、この分野の盛り上がりとブレイクスルーにつながりそうな運気を感じる(あるいは、いろいろやってうまくいかなかったときの盛り下がりぶりを暗示している)。

夕方は書籍の打ち合わせ。こちらも何年越しなので、来年度中に上梓できるようにしたい。

夜は第三の会と呼ばれるアラフォー自然言語処理関係者の会。30人弱が集まる。京大・NAIST 関係者のテーブル。研究の話をしていたら、隣の席から「こっちは研究の話は禁止!」という声が(笑)飲み会や食事のとき、研究(仕事?)の話をしたい人としたくない人、そしてどっちでもいい人がいるのだが、自分はどっちでもいい派。しかし環境によってはいつも研究の話が周りでできない人もいるだろうし、そういう人は研究の話をしたいのかもな〜、と思ったりする。この第三の会に来るような人はほとんど仕事で研究ができる人たちだし。仕事で研究的なことができる人は、特に食事のときまで話したくない、というのは分かる。そういえば去年の第三の会は子どもの話を延々していた気がする……(自分的にはそういう話もしたいが、子どもがいない人は会話に参加しにくいという問題点があるので、時と場合を選ぶ)。

2次会は例によって関根会(正式名称が分からないが、世界の地酒を楽しむ会、だったかな?)。会場がこれまた例によってカオスになっていたが、若い人たちといろいろ喋れてよかった。昔は関根会に来たらシニアな方々とお話しして勉強になることが多々あったのだが、若手の会から卒業してからは、むしろ若手の人たちと交流する場になっており、これは自分がシニア側になったのだろうか?と思ったりする。学生だったころは一方的に話を聞かせてもらっていた印象だが、学生やポスドクの方々とお話しすると、圧倒的に刺激をもらえるので、シニアの方々も若い人と話すのは楽しかったのかも、と思ったりする。

しかし3次会や4次会まであったと聞くと、もう若くはない、という気持ちになる……。