EMNLP 2008 初日

今日からメインの会議が始まった。備忘録的に聞いた内容をまとめておこうかと思う。メモ取っていないトークとポスターは割愛。ちなみに論文はすでにACL Anthology に入っているので、タイトルで検索すれば PDF が落とせる(面倒くさいので下のメモからリンクは張っていない)。

  • Shane Bergsma, Dekang Lin and Randy Goebel. Discriminative Learning of Selectional Preference from Unlabeled Text.

Selectional preference というと自己相互情報量(pointwise mutual information)とかχ^2スコアとか使って共起の強さを計るのがよくある常套手段だったが、この論文では教師あり学習(線形分類問題に帰着)を用いて selectional preference を解きますよ、という内容。正例と負例を作らないといけないのだが、単に pmi がある閾値以上(今回は0以上)であれば正例として、それより小さければ負例として扱い、2値分類に落とし込む(そのためタグつきデータを用意する必要がない)。単に共起の相対頻度だけではなく、いろいろな素性を追加することができるので、他の尺度よりいい性能が出ますよ、というのはまあそうだろうな、と思うのだが、そこで使っている素性って、タスクによってはオーバーラップするので、単に selectional preference を決めるだけに大量の素性を使うのっていいのか?と思った(ほとんどの場合、このスコアなり分類結果なりを次の処理の素性の一つとして使うだけだと思うので)。

  • Ron Bekkerman and Koby Crammer. One-Class Clustering in the Text Domain.

データマイニングの世界では Outlier Elimination、機械学習の世界では One-Class Clustering と呼ばれるタスクがあるのだが、要は外れ値をうまく除去することができたら分類器を作るのに嬉しいですよ、という問題だそうで、一般的な用語らしさとトピックの用語らしさを適切に組み合わせれば(ρ(w)=p(w)/q(w) の順にソートすると、トピック単語がきれいに浮き上がるそうだ。ここで p(w) はトピックの単語らしさで q(w) は一般的な単語らしさ)きれいな分類ができるようになりました、という話。やたら単純な話なんだが、これでうまく行くなら嬉しいんではないかな?

  • Ben Sandbank. Refining Generative Language Models using Discriminative Learning.

Nグラム言語モデルは大域的な素性を使えないし、生成モデルなのでオーバーラップするような素性も使えないという欠点がある。そこで最近は識別モデルに基づいた言語モデルの研究が盛んになってきていて、ある文が与えられたときそれがその言語の文らしいかどうか、機械学習で学習して判定する、といったことが研究されている。すると正例と負例を与えないといけないのだが、Okanohara and Tsujii (2007) で3グラムを用いて疑似負例を生成する手法が提案されたので、ラベルなしデータからだけでも学習できるようになった。で、提案手法は self-supervised boosting (Welling et al. 2003) という手法を用いてこれをするようなのだが、どこからが新規性ある話なのか聞き逃してしまった。(ストーリーは分かりやすかったのだが……)

  • Andre' Filipe Torres Matins, Dipanjan Das, Noah A. Smith and Eric P. Xing. Stacking Dependency Parsers.

現在の依存構造解析では大きく分けてグラフベースの手法(MSTParser)と transition-based な手法(MaltParser)があるのだが、相互に補完されるような特徴の違う解析器を使うと性能が上がりますよ、という話。今年の Nivre and McDonald (ACL 2008) の話と基本的に同じように見えるのだが、stacked learning として解釈したところが新しい?らしい。質問でも「これを stacked learning というのは misleading だ、1パス目で複数の分類器を使っているわけではないし、単にパイプラインでつないでいるだけだから」というやりとりがあったが、自分も Nivre らの論文との違いがいまいち分からなかった。

  • Haitao Mi and Liang Huang. Forest-based Translation Rule Extraction.

統計翻訳では最近構文解析の結果を使った翻訳が盛んになってきているが、tree-to-string などの手法では解析器が出した 1-best の解を信じて木構造から文字列に対応づけるため、解析器の精度が100%でない現状では、解析器の誤りに引きずられるといった問題点がある。そこで今回は 1-best の解析結果だけでなく、N-best の解析結果を用いて、曖昧性のある木構造の解析結果を基に翻訳ルールの獲得を行う。同じ著者らによる ACL 2008 の論文では forest decoding といって、翻訳ルールまでは普通に獲得しておいて、そこから実際に翻訳するところを forest にしたのだが、今回は翻訳ルールの獲得部分が forest になったところが新しい、とのこと。forest を使うことによってルールの数が爆発するので、ちゃんと pruning するのが大事だそうだ。

  • Rion Snow, Brendan O'Connor, Daniel Jurafsky and Andrew Ng. Cheap and Fast -- But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks.

これ、以前から機会があったら紹介しようと思っていたのだが(もしかして既に紹介したかもしれないが)、Lingpipe blog の記事で、悪い作業者を除去すれば非常に精度が上がる、という話がある。

今年の Rion Snow のトークは、Amazon Mechanical Turkというシステムを使って、非常に安価・高速そして高精度にアノテーションをする、という話。Amazon がこんなサービスをしているのは知らなかったが、一般的には自然言語処理で使うデータ(辞書とかコーパスとか)は訓練した(言語学的知識を持つ)作業者がやらないと高精度にできない、と思われているが、全く訓練していない人にこのサービスを使って30単語20セントとかで作業してもらっても、10人の作業者にやらせて平均を取ると、驚くべきことに1人のいちばんよい専門の作業者より作業者間の一致率が高くなる、という結果になった(しかも速くて安い!)そうだ。依頼しているタスクがそこまで難しくない(構文解析や意味役割付与ほどではないが、語義曖昧性解消とか感情推定とか、それなりに難しいタスクだと思うけど……)、というのも一因だとは思うが、wisdom of crowds ってこういうところまで来ているのか−、と思った。こういう話を聞くと、専門の人を雇っておく必要があるのはかなり特殊なコーパスアノテーションくらいなのかも?という気にもなる。

Amazon EC2 を使えば安く速く自然言語処理Hadoop クラスタが作れてかなり大規模に計算できると分かってもそこまで流行っていないのと同じで、これも安く速くできることが分かっても、あえて使ったりする人はそんなに出ないのかもしれないが……

夜はレセプション兼ポスターセッション。最初ポスターが3時間あるので何事かと思ったが、夕食も出るので確かに妥当な気はする。会場の大きさも手頃だったし、これは非常によい試みである(ちなみにレセプションの会場代と夕食代は Google 持ちだそうだ)。ポスター発表者の人はおいしい夕食全く食べられないで、ちょっとかわいそうではあったが……