南大沢 NLP week 2日目: 自然言語処理の問題意識の共有

昨日に引き続き、情報処理学会自然言語処理研究会(NL研)の2日目。今日は電車で行ったほうがいい理由もあったが、諸事情によりまた車で。明日は機材を日野に戻さないといけないので、結局3日連続車になってしまった。結局 e-mobile が使えないので、 iPhoneテザリングだけで動画配信を乗り切ったが、回線が遅いという声はなかった(音が小さい、あるいは片方しか聞こえない、という話はあったが、回線の問題ではなくこちらの音量の設定の問題だった)し、最悪 iPhone でもなんとかなる、というのは重要な知見であった。

午前中の目玉は東北大の M 林さんによる招待講演である。招待講演の後半部分は以前 NL 研でお話しいただいた内容だったのだが、前半部分は非常に示唆に富む内容で、NL研まとめにもまとめておいた。

コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取りまで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、全てをオープンにできないという性格がどうしてもつきまとう。

もちろん再利用可能なテキストにアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)程度が現実的なところではないかと思う。

それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすいコミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。

コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、というトレーニングもあってよいと思う。

お昼は今回のNL研を手伝ってくれたうちの研究室の学生2人と学食へ。初めてのホストで大変だったが、受付と動画配信をそれぞれ分担してくれて、助かった。アルバイトとしてお願いしたのはこの2人だけだが、紙が足りないとコピーに走ってくれたり、お茶菓子の買い出しをしてきてくれたりした学生もいて、自分だけでは到底ホストし切れなかったと思う。感謝、感謝である。

午後は Project Next NLP 中間ミーティングである。このミーティングは、今年の3月に開催された言語処理学会年次大会のワークショップで出た問題提起を受けて開催されるもので、機械学習を適当に回して結果が出ればいい、などという風潮に危機感を覚えている人たちが、ちゃんとそれぞれのタスクで現状の問題点を共有し、そこから先に進んで行けるような共通のデータや認識を作りたい、という企画だそうだ(自分はワークショップに参加していないので、当事者ではないが)。

まず部屋割りなどの説明が少しあり、それから2時間ほど各タスクに分かれて議論。今回集まったタスクは以下である。

  • 対話
  • 日本語校正
  • 翻訳
  • 東ロボ
  • 英文校正
  • Web応用
  • 情報抽出
  • レビュー解析
  • 情報検索
  • 要約
  • 固有表現抽出
  • 言い換え
  • 語義曖昧性解消・新語義発見
  • 形態素解析
  • 構文解析
  • 述語項構造解析
  • 照応解析
  • 知識獲得

自分は特に参加するタスクを一つに決めていたわけではないが、たまたま1人しかいなかった[twitter:@hikaruy] さんと東ロボ(東大入試を突破する人工知能を作るプロジェクト)のタスクについてお話ししたり、人の勧誘をしていた固有表現抽出に顔を出してみたり、最終的には英文校正タスクで今後の研究について議論したり(述語項構造解析タスクには結局参加できなかった)。固有表現抽出タスクは学生を勧誘してタグ付けしてもらっていて、今日の日記の前半に書いたように、新規参入の障壁を下げるいいサイクルだなと思った。

初日は全体報告が「対話」「日本語校正」「翻訳」のみあったが、80人近い日本を代表する研究者が南大沢に集結して自然言語処理の将来について議論したり、それぞれのタスクについてチュートリアルをしてくれたりするのは、これが最初で最後かもしれないので、こうやってホストできてよかったと思う。このキャンパスなら言語処理学会の年次大会も開催できますね、と今年のプログラム委員長の加藤さんがおっしゃっていたが、10年くらいはそういう大役は降ってこないのではないかと期待する(娘が小学校に入るくらいまでは、ちょっと厳しい)。

ミーティング終了後、部屋をいったん閉めて松本研 OB の後輩のお通夜に行く。東京出身の人は少なかったので、東京の地元の話ができる数少ない後輩で、研究的には共著で論文を書いたりしたことはないのだが、一緒に仕事をしたりすることもあり、先週突然訃報をもらったときには、絶句して2時間くらい放心状態になったのであった。明日も南大沢に会場を開けに来ないといけないので、告別式と葬儀には参加できないため、お通夜にはどうしても、と思って駆けつけたのである。彼の会社の方からも、ご両親はあまり大学でのことを聞いていないそうだ、と伺っていたので、少しでもご両親に自分しか知らないことをお話できたらな、と思っていた。

とはいえ、実は南大沢を17時に出ないと間に合わなかったのだが、最後の人がミーティング会場を出たのが18時だったので、葬儀場に着いたらすっかりお通夜は終わっていて、松本先生たちはちょうど帰るところで、自分一人でお焼香をする。時間に間に合わず心苦しかったが、最後にお別れができてよかった。

ご家族の方々にご挨拶を、と足を運ぶと、親族の方々だけだったようだが、ご両親が「どうぞどうぞ、息子の話も聞きたいので」と勧めてくださったので、会席をごちそうになる。びっくりしたのは、お母さんがずっと「生駒日記」をお読みいただいていた、ということで、息子さんがときどき登場するので、彼がNAISTにいる間はこっそり読んでいたそうだ。そういう読まれ方もしていたのかぁ。(自分が結婚したことなどもご存知で、恐縮する限り……)ご両親と3人で小一時間、いろいろな思い出話をさせてもらった。途中から manab-ki くんも到着し、4人でまたいろいろと話す。よくよく考えると、彼の同期は5年間ずっとNAISTにいた人はいないので、完全に5年間被っているのはスタッフとして残った自分だけのようだ。彼の子どものころのエピソードなどもお聞きして、このご両親だったからこそ、彼もああいう朗らかで優しい性格だったんだろうな、と思う。(自分が知っていることをお話ししようと思っていたのに1/3くらいはお話を聞いていた)

最後、21時に会場を閉めるそうで、親族の方々も含めて全員でお別れに行く。突然のことで本人も心残りあったのではないかな、と思ったのだが、最期しばらくご両親と過ごせて、よかったのかなと思った。キュブラー・ロスの「死ぬ瞬間 -- 死とその過程について」にも、家族が死を受容するための時間があるかないかでその後の心理的ストレスが異なる、という話がかかれていたと記憶している。

死ぬ瞬間―死とその過程について (中公文庫)

死ぬ瞬間―死とその過程について (中公文庫)

こういうとき、家族を支えるために重要なのは医師ではなく、周りの医療従事者、特に看護師の役割が大きく、集中治療室に入ってすぐから数週間までの患者の家族の精神的サポートが重要なのだろう。(このあたりは受け売りであるが)

自分より若い人が先立つというのは悲しいが、遅かれ早かれ誰もが鬼籍に入るわけで、そのうちそちらでまた会って話したいね、それまで精一杯楽しんで土産話を作っておくよ、と思った。