大規模データを扱うためのツールが公開されているのはありがたい

情報処理学会第73回全国大会に来ている。The Art of Algorithms for Massive Data Processing: ERATO湊離散構造処理系プロジェクトシンポジウム（第2回）を聞きにきた。なんで "The Art of ..." なのかと思ったら、いわゆる TAOCP こと

Art of Computer Programming, Volume 4, Fascicle 1, The: Bitwise Tricks & Techniques; Binary Decision Diagrams

作者: Donald E. Knuth
出版社/メーカー: Addison-Wesley Professional
発売日: 2009/03/17
メディア: ペーパーバック
クリック: 8回
この商品を含むブログ (3件) を見る

に大々的に BDD (Binary Decision Diagram) が取り上げられているそうで、BDD の進化版の ZDD (Zero-Suppressed BDD) を開発された北大の湊さん、Knuth 尊師のお宅まで行って議論したほどであるということ。そうだったのか〜。

話としては、ZDD が今回の ERATO プロジェクトの肝で、BDD は subtree が同じところをまとめて圧縮するのだが、ZDD は演算の結果が0になるところを圧縮する。購買記録などの実データは疎なことが多いので、このようにすると BDD と比較して数百倍の圧縮率になったりするのだと。ちなみに自分は湊さんの話の間合いが好きである。訥々と、でもなんだかどこかとぼけたような感じがよいのだ。

津田さんの高速な類似度検索の話や宇野さんのクリークマイニングの話も勉強になる。極大クリークマイニングって自然言語処理にも使えそうな気がする。たとえば対訳辞書構築のように2部グラフマッチング問題で定式化できるものとか。コードも公開されているので、さくっと作れる人はすぐ使ってなにかできそうである。「公開プログラム」で検索するとトップにこのページが出るとのことだったが、本当だ。しかし研究のコードをこんなにたくさん公開されているのはすごいなぁ。公開するべきかどうか議論している暇があったら、こういうふうに公開しまくったほうが遥かにいいなぁ。

ポスターの時間帰ろうとしていると manab-ki くんに遭遇。語義曖昧性解消タスクについて質問されたり、LDC (自然言語処理のデータを配布している組織)のコーパスについて質問されたりする。Welcome to NLP world! (笑)