EMNLP 2008 2日目 - 武蔵野日記

今日の招待講演は Microsoft Research にいたときに全く同じ内容(のさらに長いバージョン)を聞いた気がするので、省略。MSR のすごいところの一つは、こういうレベルの国際会議の招待講演に近い(かそれ以上の)トークが毎週(かそれ以上の頻度で)あるってところだなー。

今日は順番に情報抽出・機械学習・文書要約のセッションに出た。全部書くと大変であることが分かったので、ピックアップ。

Partha Pratim Talukdar, Joseph Reisinger, Marius Pasca, Deepak Ravichandran, Rhul Bhagat and Fernando Pereira. Weakly-Supervised Acquisition of Labeled Class Instances using Graph Random Walks.

Google の Pasca らのグループでやっていることの発表だった(今年のインターンシップ中の仕事らしい)ので、聞いておこうと思っていた発表。WebTables というウェブのテーブル構造を大規模に取得したデータがあって、それはクラス-インスタンス-属性みたいなのが入っているらしいのだが、それと Pasca らの AAAI 2008 の論文で作成したクラス-属性をマージしたい、という内容。シードとしてクラスのラベルを少量だけ与えて、全体でグラフのランダムウォークを行ってクラスラベルを推定する、というところが新しい。自分の研究と似ているところがあり、関連研究で知らない研究があったりしたので参考になった。

Razvan Bunescu. Learning with Probabilistic Features for Improved Pipeline Models.

NAIST にいたとき yotaro-w くんが「こんなのもあるよ」と教えてくれた(そしてその後松本先生が勉強会でも紹介した)論文なのだが、形態素解析と構文解析みたいにパイプラインで順番に実行する解析があるとき、これまで全体を最適化する統一的なフレームワークがなかった(どころかやり方によっては結果が悪くなっていた)のだが、それを統一的にできるようにした、という内容。実験ではそれほど性能の向上が見られなかったが、それは形態素解析がすでに非常に高い精度だからであって、そのままパイプラインでつないで(同時最適化しなくて)もよかったのだろう、とのこと。たとえば構文解析と意味役割付与をつなぐことを考えると、構文解析の精度が90%(文単位の精度だと50%程度)なので、そういうふうに前の解析があまりよくない状況では効果ありそうである。結局前のステップの結果を周辺化(かスムージング)するような感じかな？と思うのだが、割ときれいな話で今後使われそうであった。

元々 yotaro-w くんも今年の CoNLL 2008 shared task であったような構文解析と意味役割付与の同時最適化に興味があったようだが、

Richard Johansson and Pierre Nugues. Dependency-based Semantic Role Labeling of PropBank.

のように個別にやるよりこういうふうに一般的な枠組みで同時最適化ができると嬉しいと思う。

文書要約のセッションは(いちばん聞きたかった)第一発表者がビザが取得できず(中国人)来られなかったようで、他の発表はいまいちな感じであった。

複数タスク・複数ドメインでの最適化の話としては

Hal Daume III. Cross-Task Knowledge-Constrained Self Training.
Dredze and Koby Crammer. Online Methods for Multi-Domain Learning and Adaptation Mark.

の2つがあり、前者では複数のタスク(構文解析と固有表現認識)での最適化、後者は複数のドメイン(Amazon のリビューで本と DVD と電化製品？)での最適化。

前者の話はこれも紹介しようと思って忘れていたが、彼のブログのCo-training, 10 years later で今回の EMNLP の論文に関係する内容が書いてあり、「実装とアルゴリズムは違う」みたいな議論があったので、別の内容(今回の自分の論文みたく、理論的な解釈メインかな)だと想像していたのだが、結局 (Ando and Zhang 2005) の Alternating Structure Optimization みたいな話かな？ hints というのを使って最適化をするのだが、これが ASO で言うところの auxiliary problem のように見える……(横耳で聞いていたのでなんとも言えないけど)。(確かに co-training とも似ている)　co-training もグラフを用いて説明できそうな感じがする(co-training は bootstrapping と異なりけっこう理論的な話もたくさんあるので、yet another な感じではあるが)ので、ちょっとこのあたり日本に帰ったら整理したいと思う。

後者は機械学習ライブラリ OLL でも実装されている Confidence Weighted という手法を用いてうまく学習するという内容なのだが、本のデータの分類をするに当たって、本のデータ単体で学習するのと全カテゴリのデータまとめて学習するのとで、カテゴリごとにあまり特徴にばらつきがなければデータが多い方が有効だが、ばらつきがある場合は分類に有効な素性には重みをつけて、有効でない(あまり似ていないカテゴリによく見られる)素性は重みを低くしたい(そして似ている分布のデータを使えるので、当てたいカテゴリのデータ単体で分類器を作るのよりはよくなるだろう)、というのがアイデア。統計翻訳なんかでも、訓練事例には翻訳したいドメインと違うデータ(たとえば特許文)が大量にあって、翻訳したいドメインのデータ(たとえば新聞記事)は比較的少量のとき、大量のデータも使いたいけど単に結合すると翻訳したいドメインのデータだけで学習したほうが性能よかったり、といった問題があるので、同じようにデータの量が問題になるとき有効そうである。

休み時間は shimbo さんとひたすらスライドを直していたのであまり出歩かず。というか、shimbo さん今日ずっと自分のスライド直してくれていた……(アニメーション入れたりとか)。ありがたい。宇津呂さんが昼休みやってきて「最後のセッションだったらほとんど誰もいないと思うから、あまりがんばらなくてもいいんじゃない」とツッコミを入れて去っていったが、まだまだスライド改善できることが分かったので、これまで(今年3月の言語処理学会・8月の SVM 勉強会・9月の博士論文中間発表・10月の EMNLP 発表練習x2)よりよい発表になっていると思う。問題は時間が25分あればちょうどなのだが、20分しか話せないので、ぎりぎりかなぁ、というところ……