今年の ACL-IJCNLP の各テーマ別採択件数・採択率一覧は ACL business meeting で資料が配られたので、NLP 若手の会第4回シンポジウムの国際会議報告にて報告があると思うが、今回の EMNLP では意味解析に関する研究発表が割と目につく。盛り上がってきたかな?
クリックスルーや検索クエリログを用いた研究は、ポスターセッションでも4,5個あったが、割とメジャーになってきたらしい。朝一のセッションは Information Retrieval and Question Answering に出て、
- Huihsin Tseng; Longbin Chen; Fan Li; Ziming Zhuang; Lei Duan; Belle Tseng. Mining Search Engine Clickthrough Log for Matching N-gram Features. PDF
を聞いてみた。実際はクリックスルー以外にもいろいろな情報を使っているので、クリックスルーだけでなにかしたいという話ではない(応用を考えると使えるものはなんでも使った方がいいだろうし)ようだが、割とクリックスルーのデータはきれいなので、使いどころがあれば役に立ちそうだとは思った。(ちなみに著者らは Yahoo! Labs の所属である)
あと最近言語モデルの話に興味があって調べているので午後は Speech and Language Modeling のセッションに出てみた。
- Robert C. Moore; Chris Quirk. Less is More: Significance-Based N-gram Selection for Smaller, Better Language Models. PDF
は、N-gram を用いるとき高次の N-gram が見つからなかったら低次の N-gram を用いるバックオフという手法に関して、「違いがあるときだけ高次の N-gram を保持する」という方法でモデルをコンパクトにするだけでなく、精度(パープレキシティ)も向上することができました、という話。これも実際はヒューリスティックなのだが、過学習を防ぐなにかをしているのでパープレキシティが下がっているのではないか(理論に詳しい人が見たら意味づけできそう)と思ったりもする。
最後のセッションは Lexical Semantics に出て
- Patrick Pantel; Eric Crestan; Arkady Borkovsky; Ana-Maria Popescu; Vishnu Vyas. Web-Scale Distributional Similarity and Entity Set Expansion. PDF
を聞く。Pantel さんが話すのかと思いきや別の人が話していた(会場に彼もいたのだが)。テーマは去年の10月に NAIST で講演してもらったときの内容と同じで、ちゃんと論文になった、というもののようだ(EMNLP とか ACL とか通ると思っていたけど)。もう一度紹介すると、
類似度のモデリングは計算語彙意味論における重要なタスクである。
一例を挙げると、語義・概念・言い換え・トピック・分布的同義語などを発見するために用いることができる。
本講演では、非常に大規模な教師なし・半教師あり学習を行うためのフレキシブルな Map/Reduce 基盤を提案し、巨大な web のクロールデータから抽出したコーパス統計を用いて自動で集合を展開するタスクに適用する事例を紹介する。
以下の主張を支持する詳しい実証的な研究結果が示される:
という内容で、実はこれと相補的な内容が CIKM 09 に通ったらしく、シードによる結果の違いについて知りたければそちらを参照のこと、だという話。自分としてはそっちにも興味があるところである。しかしこのトーク、EMNLP の全部のセッションのうちいちばん質疑が活発で、3人くらいしか質問する時間がなかったのに10人以上挙手していたので、やっぱりみんな興味深い結果だと判断したんだろうなぁ、と思う。