役に立たない話が気楽にできるのが楽しい

台風が来るという話だが、朝から新幹線で品川に移動。新幹線の中でコーパスのリリース作業。READMEを書いたり、データをサーバに置いたりする。品川では「今日は台風が来るので早目にお帰りください」というアナウンスがある。かなり珍しい気がする。

渋谷で若干迷ったが、なんとかMixiオフィスに辿り着き、DSIRNLPに参加。[twitter:@overlast] さんがライトニングトークの時間を調整してくれたので、早目に発表を終えることができた。話した内容は「Yahoo! 知恵袋に対する述語項構造と照応関係のアノテーション」というもので、日本語書き言葉均衡コーパスに対して松本研でタグ付けしているデータの一部を今日公開しました、というもの。データのフォーマットはいろいろ悩んだが、とりあえずアノテーションツールで見ることもできる Tagrin 形式で配布している。(説明が不足しているので、後日補完予定)

会場は台風にも関わらず全体で50-60人ほど来ていて、うち学生が10人前後いたようで、思ったより学生も多く、他の人の話とも毛色が違ったので、これで自然言語処理に興味を持ってくれたらいいな。(逆に興味を失う人もいるかもしれないが、それはそれで仕方ない)

発表後リフレッシュコーナーで[twitter:@hitoshi_ni]さんと雑談し、Twitter のデータで言語処理するのってなんかモヤモヤとしたものがありますよね、という話で盛り上がる。Twitter のテキストデータはかなり特殊な文体で書かれているので、これに特化してなにかするのはあまり広がりがないと思う。ただ、それはTwitterのデータがたとえば新聞記事と同じようにかっちり書かれていることを期待しているからであって、実際はそれよりはウェブ検索エンジンに投げられる検索クエリのような感じで、検索ボックスに何をどのように入れると検索しやすいか人間が学習してクエリを作るようになるみたいに、140字の制約の中で他の人から見て反応がもらいやすくなるように最適化してツイートを書いていて、検索クエリに独自の「文法」があるような感じでTwitterのテキストにも「文法」があるのではないか。

あと、Twitterのテキストデータのみで研究なり開発なりをするのはあまりおもしろくないと思っているが、時間情報や空間情報、あとはフォローしている・されているなどのリンク情報といったウェブならではの追加情報が使えるので、こういうのを活用できるとおもしろい (意味がある) タスクになるんじゃないかな。iOS 6 のマップも評判は芳しくないが、誰がいつどこで何をしているか、という情報を Apple 集約することができるので、こういう情報の蓄積があるとそのうちいろんなことができるようなると思うのである。(そういうデータ利用がどこまで認められるか分からないが)

[twitter:@echizen_tm]さんや[twitter:@shnya_m]くんといった脱藩組のお話や[twitter:@tsubosaka]さんや[twitter:@sleepy_yoshi]さんの毎回ネタを用意されるお話もおもしろかったが、個人的には[twitter:@maropu]さんの整数圧縮ライブラリの話が一番興味深く、なにかに使えないかなといろいろ考えていた。とはいえ、言語処理の研究では必ずしもそんなに圧縮しなくていいかもしれないけど……

15時には湘南新宿ラインが早々と止まったりして、懇親会など諸々がキャンセルされて早目に勉強会が終了したのだが、自分は新幹線に乗ったあと台風が直撃して止まるのが一番困るので、しばらく会場に待機して[twitter:@sleepy_yoshi]さんとこの夏の思い出について談笑したり、[twitter:@haroperi]さんと[twitter:@tomity]さんとお話したり。@haroperi さんと形態素解析の話に始まり一階述語論理や言語行為のお話をしたりして、学部時代に勉強したことも役に立つことがあってよかったなと思ったり。いろいろ話せて楽しかった。

18時ごろ品川に行くと、ちょうど名古屋付近で新幹線が止まったらしく、復旧の目処も立っていないそうだ。20分ほど待ったが状況が改善されないので、諦めて帰宅。東京はそんなに雨は降っていなかったが、風が強い。無事帰宅しようと思うと、14時半に自分の発表が終わってすぐ品川から帰ればよかったようだが、さすがに来てすぐトンボ帰りも微妙だったし……。