ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得

5月21-22日に開催される情報処理学会第191回自然言語処理研究会報告発表原稿 PDF

情報処理学会の bookpark から先週木曜日にダウンロードできるようになったようだが、数カ所式に誤りがある(〆切以降一切修正できない模様)ので、参照される方はこちらを参照されたく。実際の発表前にそんな読む人はいないだろうと思ってのんびりしていたのだが、bookpark 公開バージョンをすでに読まれた方もいるみたいで、みなさまにはご迷惑をおかけしている次第であるが……。ちなみに電子化されたせいかどうか分からないが、ページ数が分からない(bookpark から落としても全部原稿はページ1から始まっている)。

研究会のページに書ける概要は2行程度だったのでタイトルと少ない情報しか載せられなかったが、長いバージョンの概要としては

近年ウェブ検索が一般的になり,ウェブを用いた知識獲得の研究が盛んになってきている.検索ログはユーザのユーザの関心を反映した情報源であり,ターゲット広告や検索支援のための情報抽出源として注目を集めている.
しかしながら,既存の検索クエリログを用いた意味カテゴリ学習の研究ではユーザが入力したクエリを用いることによるリソースの問題,ブートストラップに代表される手法の可搬性の問題,そしてウェブを対象にした大規模データに対する拡張性の問題,の3つの問題点があった.
そこで,本研究では検索クリックスルーログを用いた高精度な意味カテゴリ獲得,そしてラベル伝播によるグラフ理論に基づく手法の提案,最後に MapReduce を用いた並列分散計算により,これらの問題を解決する.意味カテゴリ学習タスクにおいて検索クリックスルーログを用いた研究はこれまでになく,本研究では既存手法に比べ高精度・高再現率で意味カテゴリを獲得できることを示した.

というもので、研究会初日(木曜日)15時くらいから発表なので、興味のある方はどうぞ。

ちなみに初日は研究会終了後19時から第4回東大・東工大合同勉強会(T2 meeting)があり、東大喜連川鍛治さん

発表者:鍜治 伸裕(東大 喜連川研)
題目:言い換えにもとづく複合名詞分割

概要:
現在,日本語形態素解析の精度は約99%であり,この数字は十分に実用的なレベルであると言える.しかし,個別の言語現象に着目したとき,その精度は必ずしも十分ではない.本発表では形態素解析(正確には分かち書き)が難しい例として複合名詞をとりあげ,これの高度な解析を実現する方法を議論する.話題としては
(1) 複合名詞分割における言い換えの利用
(2) 複合名詞分割と未知語獲得または単語認定との関連性
(3) 複合名詞分割と上位層の解析(複合名詞の内部構造解析やWSD)との融合
を予定している.

という発表に非常に興味がある(修士のときは複合名詞の研究をしていた)ので参加予定。鍛治さんはいつも言語的な現象を自然言語処理(計算言語学)的なアプローチで研究されているのでほれぼれする。自分もああいう研究をしたいものである。研究会本体終わるの18:10で開始が19:00からだから、慌ただしく夕ご飯食べないといけないが……