自然言語処理の明日を考える若手の会

今日から明日にかけてNLP 若手の会 (NLP というのは自然言語処理のこと)というのがあるのだが、午前中からいろいろとやることがあって、招待講演から聞きたかったのだが泣く泣く夕方から参加。

やはりみんな真剣に聞いていてやる気になる。この会は活気があってよい。もっとインフォーマルな感じだったのがどんどんフォーマルな感じになってしまっているのが気がかりであるが……。(フォーマルに発表できる場はたくさんあるので、結果が出ていない内容とかポジションペーパー的な内容とかが話せる場所として存在してくれているとありがたい)

そういうわけでポスターも初日の半分しか聞けなかったのではあるが、

言語の習得や使用における非言語情報の必要性について
- 宮尾祐介, 鍜治伸裕 (東京大学)
語義注釈システムの単語クリックログからの言語能力情報の抽出
- 江原遥, 二宮崇, 中川裕志 (東京大学)

の2つが自分の興味的におもしろかったかな。「非言語情報」といってもいろいろあるので、タイトルだけ見ていたら全然違うもの(身振り手振りとか)を想像していたが、クリックログの情報とかスパム分類におけるメールのヘッダの情報とか、要は自然言語処理の研究ではよく入力が言語で書かれたものだけを対象にしているが、それだけではよくないんじゃないでしょうか、という問いかけの発表。

自分的にはそれは100%同意で、確かに自然言語処理の研究として評価するためには言語情報のみを使った方が適正な評価ができるというのはその通りなのだが、目の前に使えるデータがあって、そのデータで飛躍的に精度が上がったりするのに、言語情報だけ使って精度が0.1%上がりましたとか言っているのはちょっと現実的な設定とは言い難い、と思っている。特に基礎技術はアプリケーションに組み込んだ上で意味があることを言わないといけないと思うのだが、実データとの折り合いや評価をどうすればいいのかも含めて、自然言語処理分野の人たちはちゃんと考えないといけないんだろうな、と思う。

その一例として(物理的には同じパネルの裏側で発表していたが)江原さん(@niam)の発表は単語のクリックスルーのログを使って英語学習者の支援をするような話。実装上はいろいろ工夫されているようだが、100クリックスルーを使うだけでその個人に適応してかなり精度が上がる(具体的な数字は忘れたが精度70%が80%になるとかそういうレベル)というのはすばらしい。使えば使うほどよくなるというのも素敵(かなり学習させると過学習の問題が出るのだろうが、それは先の話)。Google N グラムの情報も使っているところがミソなのかもしれないが、こういうログを使うと(特定のタスクには)効果的という話はもっと広まっていいと思う。

あと個人的におもしろかったのは

pingpong: 新しいデザインのための行為抽出エンジン
- 荒牧英治, 橋本康弘, 宇野良子 (東京大学), 河村美雪 (Co.うつくしい雪), 石橋素 (4nchor5la6), 李明喜 (matt), 岡瑞起 (東京大学)

で、いろんな分野の人がコラボレーションしているのも興味深いが、最近ようやく動く iPhone アプリが出てみんな注目し始めたセカイカメラみたいな感じで、誰がなにしているのか、どんなこと考えているのかみたいなことが見えるのがおもしろい。@aramakiさんは自然言語処理部分を担当されているそうだが、誰がなにをどうしたという述語項構造解析を大規模ウェブコーパス(現在は Twitter)から抽出しているらしく、これうまく行ったら自然言語処理のキラーアプリの一つになるのかなという気はしている。

最近 Twitter を使った研究が増えてきたが、対話とか雑談とかそういうのにチャットのログが使えるというのはだいぶ前からある話で、気軽にしかも大規模にクロールできるようになったというのが大きいところかなー。(ここでも重要なのは量が質に転換するというところですよ!)　あと絵文字とか顔文字は最近中高生の間でリアルというのが流行っているそうなので、これをクロールすれば「絵文字コーパス」とか「顔文字コーパス」とかができるのであろう。

ブログなどくだけた表現で書かれた(タグ付き)コーパスがほしければ京都大学情報学研究科--NTTコミュニケーション科学基礎研究所共同研究ユニットから「解析済みブログコーパス」を取得すれば約4,000文のコーパスが手に入る。(見てみたが文体はそんなにくだけた感じではない。京大生に書かせたから?)　昨日の森さんの発表でも、かな漢字変換や形態素解析に使えるようなコーパスを作るのは、5,000文しこしこ見て10営業日かかるそうなので、エンジニア的にはコーパスにタグ付けるよりプログラム書く方が楽しいし楽だからクローラー作成に流れそうだけど、一発ネタにせずちゃんとやるならクロールするだけじゃなくてしっかり時間かけてタグ付きデータ作るのも重要なのではないかと思った次第。

(最後に断っておくと、他にもいろいろおもしそうな発表あったので紹介したくはあるのだが、聞く時間が20分しかなかったので詳しく聞くことができず、これだけがおもしろかったと言いたいのではないことは強調しておきたい)