NLP忘年会。

今回の出張は16日までで一区切りなので、いろいろ経緯があって ryu-i さんの紹介で東大本郷の知の構造化センターへ。東大-東工大の人が中心の忘年会と聞いていたのだが、前半は会合だったらしい。(ちなみに後半もミーティング風の忘年会?だった)

NTCIR の周辺は時間ありますと CMU の shima さんも言っていたのでお誘いしてみたのだが、自分もshimaさんと直接お会いするのは初めて(NAIST テキストコーパスのことや SynCha のことで何回かメールをやりとりしたことはあった)。他にもこの日4人の新しい人とお会いしたのだが、うち3人はこの日記を読んでくれているそうで、ありがたいことである。名刺に「生駒日記」と刷っておくべきであった。(とはいえあと1年半で恐らく日記の名前も変わるであろうが……)

こういう形で関東圏で連携して大学や研究室を跨いで勉強会をスタートさせるところから初めて(もっと言えばフツトサルや飲み会がその前段階としてあるのだろうが)、自然に連携して研究したりできる雰囲気作りにみなさん熱心で、すばらしい。個人的にはこういう飲み会を情報系の他の分野の人とも開催し、分野を超えた情報交換をするという方向性もいいと思うのだけど(年末また入力メソッド飲み会開催します!)。

企業の人がデータを出してくれれば若手の研究も活性化するだろう、という話、確かに自分もそうは思うのだが、中にあるデータを単に公開して使わせてほしいというのは(研究者側に)虫がいい話で、やっぱり公開するからにはそれを使ってちゃんと研究してもらい、その分野でのデファクトスタンダードくらいにはなってほしいと思うだろうし、もっと言うとそこからレベルの高い独創的な研究が生まれてほしいと思うのだろうから、こういうことができるから使いたい、とか、割と先の展開が明るいシナリオを用意して働きかけたりしないと、お互いメリットが感じられず、結局公開断念、ということになるんじゃないかな……? (いずれもお互いさまなので、使ってもらうからにはちゃんと窓口を作ったり人手を多少かけたりといったことは企業側もする必要はあると思うけど) 

Google は日本語 N グラムのデータを公開したのはとても偉かったと思うが、ちゃんと研究側も使わないとせっかくできたこういう公開の流れが止まってしまうことを危惧する。だからといってそんなになんでもかんでもできるわけではないのだけど、「あればいいのに」と言って作ってもらって使わないのは自分としては失礼なことなんじゃないかと思ってしまう。(といっても研究内容をすり合わせてまで使うものでもないし、ごますり的に使う方がよっぽど失礼だろうけど)

クレクレ君というのがオープンソース界隈や Warez 界隈でよく言われるが、自然言語処理(情報科学)コミュニティはせっかくとても仲がいいコミュニティなので、みんな節度を守ってそれぞれが楽しく過ごせるように努力しないといけないのかな、と思うのであった。