自然言語処理の研究はデータが命

東京でお世話になった方々にメール書いたりしていて時間が過ぎていく。うーむ、仕方ないか。

昼から @jhirwin くんと id:syou6162 さんと @necratallo くんの発表。@jhirwin くんと id:syou6162 さんの発表時間が被っていたので全部聞けないかな、と思っていたのだが、@jhirwin くんのコマで発表キャンセルの人がいたので全員聞くことができた。

id:syou6162 さんの発表は本人の日記でも書かれているが、あれだけ密度の濃い話を専門分野外の人にちゃんと伝えられてすごいなぁと思う (質疑応答の活発さでも分かる)。でもやっぱりポジ/ネガは単語単位ではなくフレーズ(係り受けのパス)単位なんじゃないかなぁ。文脈を周辺化したものが単語なのかもしれないが……。単語単位でのリソースは最近日本語評価極性辞書(用言編・名詞編)として東北大学乾研究室で配布されているらしい。用言だけで決まるもの、名詞だけで決まるもの、用言と名詞の組み合わせで決まるもの、もっと長いパス、いろいろあると思うが、どういうふうにアプローチするのがいいんだろう?

@jhirwin くんは意味・談話解析の研究をしたいということで、先日 Sebastial Riedel さんが NAIST に来たとき @Wildkatze くんに「英語でやりたいなら OntoNotes コーパスを使うとよいよい」と教えてくれたらしく、Linguistic Data Consortium (LDC) に注文してみたのだが、どうやら間に合わないようだ (一応 UPS で発送したトラッキングナンバーはもらっているのだが……)。id:masayua さん曰く、来年の CoNLL 2011 の shared task は「Modeling Unrestricted Coreference in OntoNotes」だし、今後このデータがデファクトになるだろうから、これに参加してデータもらうのが早いかもしれない、ということだったが……。とりあえず ACE や MUC のデータは松本研にあるらしいので、英語ではそちら、日本語では NAIST テキストコーパスを使ってやってみる、といったところかな。

やっぱりデータがないと研究ができないというのが自然言語処理の痛いところ。なければ作ればいいのだが、作り方はどうやって伝承されていくのだろうか。一子相伝だったりして (汗)