EMNLP 2009 初日(2): Web 2.0 時代の自然言語処理

午後のセッションは Natural Language Processing for Web 2.0 に出る。名前にはいわゆる buzzword がついているが、内容は全然関係なく普段の研究と変わらない感じ。

  • Marco Pennacchiotti; Patrick Pantel. Entity Extraction via Ensemble Semantics. PDF

が個人的にはヒット。Web からクロールした素性と Web のテーブルから展開した素性と Wikipedia から抽出した素性と検索クエリログから獲得した素性の4タイプの素性を組み合わせ、どれがどれくらい効果あったかということを実験したりしていて、それぞれそれなりに効果があるらしい。分布類似度を使った手法とパターンを使った手法(Pasca らの手法)が別々であると書かれているのだが、これらは文脈を使うという意味では同じじゃないの? (用語だけから決まる素性を用いた抽出器があれば対比分かりやすいけど)

最後のセッションは Lexical Semantics に出る。あえて1本選ぶと

  • Jeff Mitchell; Mirella Lapata. Language Models Based on Semantic Composition. PDF

が興味深かった。アイデアとしては、単語の意味をモデリングするとき、cos 類似度なんかだと単語の出現回数を加算してベクトル空間を作るのが主流だが、実は単語の出現分布の積を取ってベクトル空間を作った方がはるかに性能が高い、ということを彼らが ACL 2008 で示していて、この話はその考え方を用いた言語モデルの提案。

言語モデルなのでたとえば N-gram モデルなんかと比較してどうよ、という話なのだが、周辺 N 単語(N=5)のウィンドウで頻度一定以上の高頻度語がどれくらい出てくるかという分布で積のベクトル空間モデルを作ったところ、N-gram モデルよりよかった、という話。確かに結果はすごいなぁと思うのだが、実用的に考えると機械翻訳かな漢字変換に使うとすると、5単語後ろまで見ないと計算できないので、5-gram モデルと比べるとデータスパースネスを回避できるという利点はあるのだが、実装を複雑にしてまでやる必要はないような気もする。ちなみに足し算と比べるとゼロ頻度問題が深刻(確率はどこかがゼロだと全部ゼロになる)なので、ちゃんとスムージングしないと全然性能が出ないらしい(実際に ACL 2008 を読んで実装した別のグループの人が質問というかコメントしていた)。ともあれ、長距離の意味関係を組み込むことができるという点と、bag-of-word と N-gram の中間のような意味関係を用いたシンプルな言語モデルということで、割と考え方はおもしろいと思う。

そういえば Ken が MacBook Pro を使っていたので「あれ?」と思ったのだが、どうもジョンズホプキンス大学に転職したようだ。なるほど……。