言語処理学会2009年年次大会本会議最終日: 心をカニにして食べる

最終日は午前午後ともマイニングのセッションに出た。午前のマイニングのセッション、半分が茨城大の新納さんのところの研究室の方々なんだけど……。一つ疑問があって、K-means のパフォーマンスが初期値に依存するという問題を解決する KKZ という初期値選択法があり、最初はノルムが一番大きな点を取って順番に一番遠いところを初期値に選択する、というアルゴリズムらしいのだが、たとえば K-means++とどう違うのかな、と……。(K-means++ のアルゴリズムを誤解していたが、これ O(log k) で初期値選択できるそうで、ランダムに n 回やるのと比べてもまあいい線行っているような)

午前のセッションでおもしろかったのは萩原さんの「グラフカーネルに基づく非分かち書き文からの意味的語彙カテゴリの抽出」かな。実は発表前から何回もメールで往復して聞いているので、内容は知っていたのだが、質疑応答が盛んだったので、事前に聞いておいてよかった(笑) これに限らずグラフを用いた手法は計算量が大きいので、いかに計算量を抑えるか(アルゴリズム的に工夫したり、グラフを分割して計算できる範囲に押さえたり、近似で済ませたり)というのが重要だったりする。中川研の佐藤さんからも聞かれたのでここにメモしておくと、最近は O(kn) で k 個の最大固有ベクトルを求めるアルゴリズムがあるそう(実際は行列の三重対角化とかいろいろやらないといけないので、そんな単純な話ではないようだが……)で、こういうのを使うといいのかな?(会社で印刷して週明けに読む予定) 最近の lapack に既にコードも入っているらしい。(というのはLAPACKで密行列を高速に固有値分解してみたというエントリを偶然見つけて知った)

午後のマイニングセッションでは Xianchao Wu さんの Self-Training for Mining Parenthetical Translations in Monolingual Web Pages が個人的におもしろかった。括弧表現から対訳を獲得するという話は永田さんの Using the Web as a Bilingual Dictionary (ACL-2001) に始まり最近では Lin et al. Mining Parenthetical Translations from the Web by Word Alignment (ACL-2008) があるそうだが、括弧表現の周辺文字列をパターンとして使ってブートストラップを回し、対訳辞書を獲得する、というのが彼の話。パターンはどういうふうに作っているのか知りたかったのだが、訊いてみると(シードとして与えたのと同じ)辞書中にあるエントリと編集距離を計算して近いものとマッチを取り、アライメントがついた場所をパターンとして、つかなかった場所を対訳ペア候補として抽出するそうだ。なるほど。シードが50万単語、コーパスが300GBらしいが、それでも4回反復して1日で終わるとのことで、なんとも力業だがおもしろかった。NAACL-HLT 2009 にもアクセプトされているそうだ。さもありなん。

tooru-h さんの話「関係名詞らしさを用いた固有表現間の関係同定」もしっかり調べていて感心した(ちゃんと書けばいい会議に通りそう)。一般的にはこういう名詞間の関係解析では数十個の関係(part-of とか is-a とか)を任意に定義して二項関係になっている名詞句ペアを同定する、というタスクにすることが多いのだが、tooru-h さんの問題設定の特徴的なところは名詞間の関係を係り受け関係にある文節から取った単語で表現するところ。実際はこうすると「お母さん」関係と「母ちゃん」関係が別扱いになってしまうといった問題があるそうで、語彙化された関係と(数個-数十個に)汎化された関係の間のどこかに(恐らくタスクに依存する)落としどころがあるのだと思うが、一つの側に大きく触れた設定として、これからスタートするのは悪くないと思う。最初の問題設定からどんどん解ける範囲に落とし込んでいくところ、アメリカ的な発表スタイルでおもしろかった(笑) ryu-i さんのスライドを見ているようであったが、非常にストーリーが分かりやすくて聞きやすかった(最近 ryu-i さんは口頭発表はしてなくて、もっぱらポスターだったか……)。スライドも公開してほしいかも〜。自分も将来的に取り組みたい内容なので、この研究の今後の展開に期待大。

終了後たつをさんたち Y! 社の人たちとどこかに食べに行く話になっていたのだが、気がついたら東大辻井研を中心とする人たちとカニを食べることに。鳥取大学からタクシーでカニ大陸という店に行ったのだが、ラストオーダー7時のところ総勢14人で押しかけ、異様な盛り上がりを見せる。こんな大量にカニ食べたの生まれて初めてかも〜。おいしかった。みなさんキャラが濃くてすばらしい。O 野原くんたちのテーブルが「カシコピア」という新語を造語して普及を図っていたが、店員さんはこれが普通の言葉だと思ったようで、なんとか話をつなげようと努力してくれて、ちょっと気の毒だったけど……。

当初の予定ではカニを食べた後焼き鳥を食べているたつをさんたちと合流して2次会で焼き鳥を食べるつもりだったのだが、みなさん先に帰って温泉に入っていたそうで、@overlast さんと2人で焼き鳥→温泉コース。鳥も地酒もうまいなぁ。今回の年次大会は運営がすばらしく、ほとんど非の付け所がない(電車の本数が少ないとか仕方ない事情を除くと)。来年の東大本郷での開催についての言及は控えるが、さ来年の地方開催のハードルが上がったかもしれない(笑)