言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開

情報処理学会来るべきクラウドコンピューティングの世界のイベントに参加する気満々で朝安田講堂に行ったのだが、言語処理学会のプログラムを見ていると、どうも朝はそちらを聞かないとまずそうな感じだったので、予定を変更して言語処理学会に。

自分の聞いたのは解析のセッションだったのだが、どうもパンフレットに載っている時間と実際の開始時間が違った(より正確には、情報処理学会側のプログラムに書いてある言語処理学会のセッションの開始時刻と言語処理学会側のプログラムに書いてある言語処理学会のセッションの開始時間が違った)ので、最初の発表を聞き逃す。残念。

一番おもしろかったのは

かな。決定的な係り受け解析をするのだが、素性に部分木の構造を用いていて、高速ながら精度が高いそうで(詳しくは読まないと分からないが)。ただ質疑応答がよろしくなく、「この手法を適用してもまだ残るエラーはなんですか」という意図で座長さんが聞いているのに、「この手法で解ける問題はなんですか」という質問に対して一生懸命答えていて、ちょっとちぐはぐだった。解けない問題があるというのは提案手法の致命的な欠点ではないので、どんな問題が解けるようになって、どんな問題が残っているのかを明らかにするというのも重要な研究(残っている部分が future work として他の研究者の仕事になる)なので、もし考えていなかったのであれば、考えてみるとよいように思う。

あとは

  • 大規模ラベルなしデータを利用した係り受け解析の性能検証. ○鈴木潤, 磯崎秀樹 (NTT)

係り受け解析にいろいろな設定の半教師あり学習を使うとどうなるかという話で、余談がたくさんあっておもしろかった(笑) やはり鈴木さんは話うまいな〜。どうやらすごく新しいことをしましたという話ではないようだが、しっかり比較実験されているので、落とされにくい論文になるのだろうなという気はする。精度も現時点で最高精度のようだし、これは力作。関根さんが「解析精度はすごいのは分かりましたが速度はどうなんですか」「ぜひツールを公開してください」と質問というかコメントしていて、「理論的にも教師あり学習と同じ速度です」と返答されていたが、実際は分類のとき単にベクトルの内積を取るだけなのでその部分の速度は変わらないだろうが、訓練時だけではなく分類時にも補助問題を生成しなければならないので、動かすと遅いのではないかなという気はする。あとモデルのサイズも(補助問題を生成する分)巨大になってそう。いずれにせよ、今年の EMNLP に出てくるのかな、と思った一作品である。

もう一つは

で、こちらは@unnonouno さんが冒頭で「これまでの研究が係り受けの精度をもっと高める縦方向の研究だとすると、この研究は現在の精度の係り受けでなにができるかを考える横方向の研究です」とイントロダクションしていたのに象徴されるように、係り受け解析という、応用がありそうでいていまいちキラーアプリ的なものがない基礎技術で、頑健に動くアプリケーションを作りたい、というモチベーションである。照応解析とか共参照解析とか、あと意味役割付与(述語項構造解析)みたいな解析技術は精度がまだまだ低いし、分かち書き係り受け解析ですら新聞記事ならともかく一つ分野が違えばぐちゃぐちゃになったりするので、現状の精度のツールを前提になにができるかという問題設定はおもしろい。実際の実験のエラーを見ると「これは共参照解析が当たれば解けそうな問題だなー」と思うし、それは先日のNAIST-NiCT 合同勉強会の言論マップのエラー分析でも同じ問題があったが、「共参照解析や述語項構造解析ができればいいのは山々だが、現に我々が解きたい問題はウェブを対象にしていて、そんなツールが成熟するのを待っていられない」という設定で取り組まなければならないのが自然言語処理の現状であり、難しい問題にチャレンジされていてすごい。自分もこれくらい果敢に難しい問題に挑んでみたいものである。

IME関係では

  • 仮名漢字変換ログの活用による言語処理精度の自動向上. ○森信介, Graham Neubig (京大)

の話が興味深い。これまでこの日記でも「かな漢字変換のログを使えば精度向上するはず」と言い続けてきたが、@zelchmixijpさんが実際に実装して検証してくれた。今回の実験設定では1人のユーザが自分のログを使って精度がどうなったかという実験をしているのだが、エラー数を見るとエラーの数が半減しているので、体感的にはものすごくエラーが減っているように感じるのではないかという気がする。どのように学習を定式化するところが少しトリッキーなところだが、情報検索と同じでランキング学習の問題に帰着して解けばいいのではないかとも思うし、あとは大規模に変換ログデータが入手できた場合に、最初からランキング学習したモデルを使うとかなりよくなるのではなかろうか(アイデアだけだけど)。学習曲線がどうなっているか(実際に使うときは少し入力しただけですぐ自分のスタイルに適応してほしい)聞いてみたのだが、それはまだ調べていないとのこと。体感としては少しやるだけで一気によくなるそうで。他にもいろいろと機械学習的にもおもしろい話があるのだが、それを書くにはここは狭すぎる。(笑)

セッション終了後関根さんが来ていろいろ近況について教えてくれた(こちらからも4月以降の予定をお伝えした)のだが、世界は回っているのだなぁ。自然言語処理もうかうかしていられない。そういえば@klmquasi さんがお隣に坐っていたので一緒にランチでもしつつお話したかったのだが、先に妻とRestaurant RISAKIでフレンチする約束をしていたので、泣く泣く断念。自分的には家族サービスが第一です。雰囲気もいい店で、「一度入ってみたい!」という人がいる、というのも分かる。ランチにしては高いような気もするが、こんなものかなー。さすがに男の人だけで来る店ではないな……。

移動途中 Hisami さんに久しぶりにお会いする。IME の話や検索の話や、10分ほどではあったが久しぶりにお話しできてうれしいものである。今回は久しぶりに会う人の姿を見かけても話しかける(というか話し込む)時間が取れず、少しフラストレーション溜まり気味であったが、東京開催のときはこうなるのは仕方ないのかなーと思って諦める。見かけたのにほとんどお話できなかった方々、どうもすみません!