ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法

5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日本の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。

朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3本のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松本先生がぼやいていたのだが、ベストペーパーの紹介を今日は松本先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑)　副学長に加えてプログラミング委員長、なんだか今年松本先生は忙しそうな年である。

さてベストペーパーはUnsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections。英語のようにリソースがある言語は辞書やタグ付きコーパスが整備されているので、マイナーな言語で辞書やコーパスがない場合、対訳コーパスを使うことで自動的にマイナー言語の単語と英語の単語の間の対応関係を推定し、英語で利用できる品詞の情報を援用して教師なしに形態素解析器を学習する、という話。

やりたいことは実用上は役に立つ話だと思うので、そこには文句がないのだが、品詞タグつきデータがないような言語に対して教師なしに学習できる、という利点も、対訳コーパスが十分な量ないとまともに動かない、というのは仮定としておかしいように思う。

そもそも対訳コーパスを新たに百万文以上用意しなければならないなら、その労力で(数百文でも数千文でもいいので)品詞をつければよいわけで、現実的な設定ではない (たまたま百万文単位で英語との文単位の対応がついた対訳コーパスがある言語ならそのまま適用できるが、そういう言語に品詞タグ付きコーパスが存在しないというのはどういう状況だ?)。質疑応答でもいろんな人が実験設定に突っ込んでいたが、さもありなん。

いろいろモデルはがんばったのかもしれず(@caesar_wanya さんも書いている)、単語3-gramからなる200万ノードのグラフにラベル伝播を適用して半教師あり学習してゼロ頻度問題を解決したあたりは Google っぽい感じではあるのだが、細かい手法以前になんだか実験の設定がおかしく、これ聞いて「すごい研究だ、自分も使おう」とは誰も思わないのではないだろうか…… (Google はこの手法を実際に適用して形態素解析器を作って使っているらしいが)

ベストスチューデントペーパーの Global Learning of Typed Entailment Rules は逆におもしろかった。推論規則を自動で獲得するのだが、推論は「A ならば B」「B ならば C」の両方が成り立っていると「A ならば C」も成り立つ(推移律)のだが、こういう(グローバルな)制約を入れて整数計画問題(ILP)として定式化して「X社がY社を買った」なら「X社がY社を入手した」というような推論規則を自動抽出すると、精度よく規則が抽出できる、という話。

実際の精度に関係するのはILPを使ったところではなく述語の項のタイプを指定するところだと思うが、このあたりの事態間の関係になにをどう使うかはいろいろ考えることができておもしろい。最近事態間の関係抽出を研究している Stanford の Chambers and Jurafsky たちは、2つの述語の項同士が共参照の関係にある (同じ実体を指している) ときそれらの述語が関係していると認定するのだが、ここは同じ固有名詞を項に持っているだとか、同じ文字列の単語を項に持っているだとか (@shirayu くんの最近の研究はそういう類似度尺度)、この研究のように項となる名詞のタイプが同じだとか、さまざまな可能性がある。

このあたり、もっと突っ込んで研究してくれるとよかったのだが、この研究自体は (40-50ノードのグラフでしか動かない) ILP をいかにスケールアップするか、ということにエネルギー (と興味) を注いでいるようで、そこはちょっと残念である。奇しくもベストペーパーはラベル伝播というグラフ上の推論アルゴリズムを用い、こちらのベストスチューデントペーパーも推論グラフ上での最適化問題を解くという話で、なんだかグラフを使った自然言語処理の研究がこれから流行るのでは感はある。

推移律もILPでハードな制約として入れるよりは、緩い制約として入れた方がいいのではないかと思うし、このあたりもソフトな感じで大規模データにも適用できるグラフベースのアルゴリズムを使えばいいのではないかな。

ショートペーパーはいろいろ聞いてみたが、時間が短いせいもあってみなさん不完全燃焼気味である。「このネタ・ストーリーならしっかり書いてフルペーパーで出せばいいのに」と思うものもある一方、ショートペーパーでないと厳しいからショートにしたんだろうなぁと思うようなものもあったり。しかしショートペーパーだとみんなあまり参照してくれないので、いいネタならフルペーパーにしたほうがいいと思うのだが。

個人的なベストショートペーパーはAn Empirical Investigation of Discounting in Cross-Domain Language Models。自然言語処理では、未知語や低頻度の単語の出現確率を推定するために単語の出現回数を調整する(ディスカウンティング)のだが、Ken Church が1991年に発表して長らく定説として使われてきたディスカウンティングが最適ではないことを発見した、という話。で、どのように違うかというと、頻度の割引率の推定に使った訓練コーパスと、実際に頻度を推定したいテストコーパスの分野の離れ具合、あるいはデータを取得した時間的隔たり具合によって、離れていれば離れているほど多くディスカウントしたほうがよいことが分かった、と。

Ken Church 本人を含め錚々たる面々が口々にマイクを握り、"Nice work!" と讃えながらいろいろ質問していたが、こういうおもしろい小発見 (理論的にどうなっているか分からないが、自然言語を見るとこういう現象があって、こうやったら解決できるようだ) はショートペーパーで発表するにふさわしい内容だと思うし、このトークは非常におもしろかった。

@tettsyun くんのHITS-based Seed Selection and Stop List Construction for Bootstrappingの発表も、前の発表が上記のもので大絶賛の中話さなければならず、やりにくいかと思ったが、堂々と発表していてさすが。こんなに聴衆がいる中で発表したこと、自分もない (笑)　

昼食は発表直後の@tettsyunくんを質問攻めにしていた@hidekishimaさんと一緒に食べる。昨日の招待講演に関連して IBM Watson の話をお伺いしたり、CMU の話をお伺いしたり。

お昼ご飯をたくさん食べると (そして多少歩くと) 午後は眠くなるなぁ……。歩いて帰れる距離なので、帰って一休みしたりなど。時差ぼけに合わせたり疲労回復のサイクルを考えたりすると、到着してから3-4日したあたりから慣れてくるのだが、本会議のあとにワークショップがあると、調子が乗ってきたら本会議が終わって人が一気に減ったりするので、会議前にワークショップがあるほうが自分としては嬉しいのだけど……。とはいえ会議前からちょぼちょぼ人が集まってしまうと本会議の盛り上がりに欠けるのだろうし、一番大きい研究者コミュニティが北米の人たちで、ほとんど時差の影響なしに参加できるのだろうから、いまの形がベストなんだろう。

バンケットは登録していなかったので、夕食はRuth's Chrisで分厚いステーキを食べようかと思ったのだが、どうもたまたま店舗改装(移転)で閉まっていたので、Heathman Restaurantに行く。ステーキを注文。ボリュームは控えめだがおいしい (というか日本人的にはこれくらいの分量でないときつい……)。ryu-i さんからイタリアのエスプレッソの話を聞いたりなど。

松本研は M1 の人たちが元気すぎて心配だ、という話をしたところ、元気すぎるなんて贅沢な悩みで、学部生はサークルだとかバイトだとか、あと大学院の入試も普通にあるので試験勉強で忙しく、修士に進学したかと思ったら就職活動で忙しく、博士に進学してくれる人はまず日本人にはいないので、修士の人たちが研究する体制にあるだけでうらやましい、というお話。確かに今年の松本研の M1 の人たちは、自主的に機械学習とか統計的自然言語処理、言語学などの勉強会を開催して基礎勉強をする一方、入学して数ヶ月も経たないのに何人もトップカンファレンスの論文を読み始めていたり (自分が難関国際会議の論文を読み始めたのは M2 に上がるころくらい)、そういう雰囲気が共有されているだけですごいのかもしれない。

水曜日以外毎日19時以降に開催される勉強会がある (水曜日は毎月研究室の食事会があるので勉強会を外したようだ) というだけで、相当過密スケジュールだと思うが、確かに自分も入学直後は相当しんどかった反面、1年経ってみると自分の成長を実感することができたので、ここががんばりどきだと思って乗り切ってもらえるといいのではないかと思う。