EMNLP 2009 2日目: 意味解析が盛り上がりを見せてきた

今年の ACL-IJCNLP の各テーマ別採択件数・採択率一覧は ACL business meeting で資料が配られたので、NLP 若手の会第4回シンポジウムの国際会議報告にて報告があると思うが、今回の EMNLP では意味解析に関する研究発表が割と目につく。盛り上がってきたかな?

クリックスルーや検索クエリログを用いた研究は、ポスターセッションでも4,5個あったが、割とメジャーになってきたらしい。朝一のセッションは Information Retrieval and Question Answering に出て、

  • Huihsin Tseng; Longbin Chen; Fan Li; Ziming Zhuang; Lei Duan; Belle Tseng. Mining Search Engine Clickthrough Log for Matching N-gram Features. PDF

を聞いてみた。実際はクリックスルー以外にもいろいろな情報を使っているので、クリックスルーだけでなにかしたいという話ではない(応用を考えると使えるものはなんでも使った方がいいだろうし)ようだが、割とクリックスルーのデータはきれいなので、使いどころがあれば役に立ちそうだとは思った。(ちなみに著者らは Yahoo! Labs の所属である)

あと最近言語モデルの話に興味があって調べているので午後は Speech and Language Modeling のセッションに出てみた。

  • Robert C. Moore; Chris Quirk. Less is More: Significance-Based N-gram Selection for Smaller, Better Language Models. PDF

は、N-gram を用いるとき高次の N-gram が見つからなかったら低次の N-gram を用いるバックオフという手法に関して、「違いがあるときだけ高次の N-gram を保持する」という方法でモデルをコンパクトにするだけでなく、精度(パープレキシティ)も向上することができました、という話。これも実際はヒューリスティックなのだが、過学習を防ぐなにかをしているのでパープレキシティが下がっているのではないか(理論に詳しい人が見たら意味づけできそう)と思ったりもする。

最後のセッションは Lexical Semantics に出て

  • Patrick Pantel; Eric Crestan; Arkady Borkovsky; Ana-Maria Popescu; Vishnu Vyas. Web-Scale Distributional Similarity and Entity Set Expansion. PDF

を聞く。Pantel さんが話すのかと思いきや別の人が話していた(会場に彼もいたのだが)。テーマは去年の10月に NAIST で講演してもらったときの内容と同じで、ちゃんと論文になった、というもののようだ(EMNLP とか ACL とか通ると思っていたけど)。もう一度紹介すると、

類似度のモデリングは計算語彙意味論における重要なタスクである。
一例を挙げると、語義・概念・言い換え・トピック・分布的同義語などを発見するために用いることができる。
本講演では、非常に大規模な教師なし・半教師あり学習を行うためのフレキシブルな Map/Reduce 基盤を提案し、巨大な web のクロールデータから抽出したコーパス統計を用いて自動で集合を展開するタスクに適用する事例を紹介する。
以下の主張を支持する詳しい実証的な研究結果が示される:

  1. コーパスのサイズが重要: 大きなコーパスであれば有意によい展開性能が得られる。
  2. コーパスの質が重要: 質の高いコーパスである Wikipedia を用いれば、60倍もの大きさの質の低い Web クロールコーパスと同程度の性能が得られる。
  3. シードの選択が重要: 同じ数のさまざまなシード集合を用いると、性能は非常にばらつきがある。
  4. シードの大きさが重要: 高い展開の再現率を得るためには5-20個程度しかシードは必要ではない。ただし、シード集合のサイズが1個と2個の場合には予測不能な性能になる。

という内容で、実はこれと相補的な内容が CIKM 09 に通ったらしく、シードによる結果の違いについて知りたければそちらを参照のこと、だという話。自分としてはそっちにも興味があるところである。しかしこのトーク、EMNLP の全部のセッションのうちいちばん質疑が活発で、3人くらいしか質問する時間がなかったのに10人以上挙手していたので、やっぱりみんな興味深い結果だと判断したんだろうなぁ、と思う。