Co-clustering の自然言語処理への応用

合同研2日目終了。岡山大高橋秀幸さんの「共通概念を持つ動詞集合獲得を指向した同時クラスタリングの精度の改善」という話がおもしろかったかな? 動詞のクラスタリングに名詞(実際は名詞と格助詞のペア)を用い、逆に名詞のクラスタリングに動詞を用いる、という方法で、動詞のクラスタリングの精度を上げよう、という内容。ちょっと計算量が大変そうだったが、いろいろ制約を入れて計算可能なところにしているような感じ(精度の問題もあるだろうけど)。先日自分も関連研究として教えてもらったのだが、

  • Akiko Aizawa. A method of cluster-based indexing of textual data. COLING-2002.

の他に、

  • Inderjit S. Dhillon, Subramanyam Mallela, Dharmendra S. Modha. Information-Theoretic Co-clustering. KDD-2003.

が関連研究かな?

自分たちも以前 pLSI を使ったりして動詞と名詞のクラスタリングをしていたが、実用上はいくら巨大なコーパスを使ってもそれに入っていないデータが入ってくるとうまくいかない(data sparseness)問題が一番大きかった(だからスムージングしたりするんだろうけど)。このあたり決定版はないのかなぁー