情報処理学会第73回全国大会に来ている。The Art of Algorithms for Massive Data Processing: ERATO湊離散構造処理系プロジェクトシンポジウム(第2回)を聞きにきた。なんで "The Art of ..." なのかと思ったら、いわゆる TAOCP こと

- 作者: Donald E. Knuth
- 出版社/メーカー: Addison-Wesley Professional
- 発売日: 2009/03/17
- メディア: ペーパーバック
- クリック: 8回
- この商品を含むブログ (3件) を見る
話としては、ZDD が今回の ERATO プロジェクトの肝で、BDD は subtree が同じところをまとめて圧縮するのだが、ZDD は演算の結果が0になるところを圧縮する。購買記録などの実データは疎なことが多いので、このようにすると BDD と比較して数百倍の圧縮率になったりするのだと。ちなみに自分は湊さんの話の間合いが好きである。訥々と、でもなんだかどこかとぼけたような感じがよいのだ。
津田さんの高速な類似度検索の話や宇野さんのクリークマイニングの話も勉強になる。極大クリークマイニングって自然言語処理にも使えそうな気がする。たとえば対訳辞書構築のように2部グラフマッチング問題で定式化できるものとか。コードも公開されているので、さくっと作れる人はすぐ使ってなにかできそうである。「公開プログラム」で検索するとトップにこのページが出るとのことだったが、本当だ。しかし研究のコードをこんなにたくさん公開されているのはすごいなぁ。公開するべきかどうか議論している暇があったら、こういうふうに公開しまくったほうが遥かにいいなぁ。
ポスターの時間帰ろうとしていると manab-ki くんに遭遇。語義曖昧性解消タスクについて質問されたり、LDC (自然言語処理のデータを配布している組織)のコーパスについて質問されたりする。Welcome to NLP world! (笑)