大規模な集合展開についてのトーク(予定)

今日研究室は合宿なのだが自分は居残りで論文書き。今回は自分の発表もないし、他人の話を聞いて宴会するだけなので、行ってもそんなに負担はないはずだったのだが……

研究室に行っても誰もいないだろうな、と思っていたら mutsuko さんに会ってびっくり。確かに技術補佐員さんは合宿に来ないので、当然と言えば当然。

自分の席に行く途中、新しい人がいたので挨拶。erlyn-m さん。10月からの研究生で、来年の4月から博士課程に入学予定だそうだ(修士はフィリピンの大学で構文解析の研究をしていたとのこと)。合宿はパスしたらしい。タガログ語形態素解析に取り組むとのことで、ling-g さんを彷彿とさせる……。タガログ語の特徴についていろいろと教えてもらう。擬態語(たとえば「どんどん」みたいな)のがやたら多くて(日本語も英語なんかのヨーロッパ系の言語と比べると擬声語・擬態語は多いほうだが、一般的に東南アジアの言語は日本語と比べてもさらに多い)生産的だそうで、しかし一部の動詞・形容詞にしか使えなかったりと、そのあたりの処理が難しいそうだ。

あと Patrick Pantel さんのトークの詳細を送ってもらった。参加されたい方(学内の他研究室の方はもちろん、学外の方も参加歓迎。)はそちらを参照されることとして、日本語版でも置いておく。(速攻で訳したので変な訳があれば原文を参照されたし)

タイトル: 大規模な自動的集合展開

アブストラクト:

類似度のモデリングは計算語彙意味論における重要なタスクである。
一例を挙げると、語義・概念・言い換え・トピック・分布的同義語などを発見するために用いることができる。
本講演では、非常に大規模な教師なし・半教師あり学習を行うためのフレキシブルな Map/Reduce 基盤を提案し、
巨大な web のクロールデータから抽出したコーパス統計を用いて自動で集合を展開するタスクに適用する事例を紹介する。
以下の主張を支持する詳しい実証的な研究結果が示される:

  1. コーパスのサイズが重要: 大きなコーパスであれば有意によい展開性能が得られる。
  2. コーパスの質が重要: 質の高いコーパスである Wikipedia を用いれば、60倍もの大きさの質の低い Web クロールコーパスと同程度の性能が得られる。
  3. シードの選択が重要: 同じ数のさまざまなシード集合を用いると、性能は非常にばらつきがある。
  4. シードの大きさが重要: 高い展開の再現率を得るためには5-20個程度しかシードは必要ではない。ただし、シード集合のサイズが1個と2個の場合には予測不能な性能になる。

略歴:

Patrick Pantel は現在 Yahoo! 研究所の主任研究員であり、また南カリフォルニア大学情報科学研究所の自然言語グループの特任助教兼特任研究員である。
南カリフォルニア大学では大規模な自然言語処理テキストマイニング、知識獲得、予測システムの研究を行っている。
2003年にカナダ・エドモントンアルバータ大学で計算機科学の博士号を取得した。

集合展開(set expansion)というのは Google Sets とか SEAL とかで有名(以前自分の日記でも取り上げたことがある)だが、いくつかの用語を入れるとそれに似た用語を返してくれるというもの。実用的には製品名のリストがあると Web 広告に使えたり、情報抽出に使えたりする技術である。

話としては去年の電子情報通信学会の NLC 研究会での招待講演で「ここがもっと知りたいのに!!」と思ったところを突っ込んで話してくれるような感じになるのではないかと思う。(去年のトークは意味的類似度の定義について基礎的なところから話してくれ、automatic set expansion については講演の最後の10-20分くらいでざっくり「こんなこともしています」的に話してくれただけだったので)