古典的手法といえど難しい

午前中、論文紹介も2/3欠席させてもらって原稿を見る。論文紹介(古典)は

  • Patrick Pantel and Dekang Lin. Discovering Word Senses from Text. KDD 2002.

を紹介してくれる。この論文、教師なしに語義を見つける手法としてかなり引用される話で、自分が D2 のころかなり読んだのだが、中に書かれているアルゴリズムがかなり分かりにくく、同じ内容で同時期にいくつか書かれている論文を読み、かつ結局博士論文を読んでなんとなく分かったような記憶がある。

コアとなるアルゴリズムは Clustering by Committee と呼ばれているもので、クラスタリングするときに「コミッティー」と呼ばれる代表例だけでそのクラスタを表現し、かつクラスタリングで見つかったクラスタ(つまり文脈)の「引き算」で複数の語義を見つける、というもの。こういうように「単語の意味を文脈の分布として表現する」「文脈を引き算する」というようなおもしろいところがあり、D2からD3にかけては、この演算を理論的に説明できないか? と思っていたのである(Pantel さんの研究も論文も、よく分からないがうまく行くヒューリスティックを提案している一方、記述が分かりにくい、という特徴がある)。結局うまく定式化する方法が思いつかず、まだ「時間があったら考えてみたい研究リスト」の中に入っているものであるが……。

今考えればこれは word2vec のように単語(語義)を分布類似度で表し、ベクトルの引き算をする、という話と接続しそうな気がするのだが、改めて読んでみて Clustering by Committee のアルゴリズムが相当分かりにくいので、これはリバイバルするのは難しいかも(新しいアルゴリズムだとして提案した方が見通しがよさそう)。

午後も原稿を見ていたが、ちょっと諸々の事情を考慮するとこれは難しい、と判断し、ギブアップ。成仏させてあげられなかったのが心残りだが、この経験を次に活かしたい。

夕方は大学院教務委員のお仕事。委員長だからかなんなのか、今年はそれなりに仕事がある印象。大学院教務は2年目だから1年目より楽になると思っていたのだが……。