EMNLP 2008 最終日

今日は自分の発表日。最後の日の最後のセッション。初日と2日目は雨で、3日目になってようやく快晴になったので、みんな外に遊びに行っているんじゃないか、と思ったり……

最初の招待講演は Fernando Pereira (Google and University of Pennsylvania) の "Are Linear Models Right for Language?" で、高次元スパースであることが多い自然言語処理のタスクでは線形分離ってどうよ? という話なのだが、機械学習自然言語処理、というタイトルでもおかしくないような一般的な内容だったような……。昨日も書いたが Confidence Weighted (Dredze et al. ICML 2008) がよいですよ、という結論かな。質問でカーネルを使うのとどっちがいいんですか、みたいな話があったが、なにを言っているのかよく分からなかった……

今日は意味論と情報抽出(自分の発表)のセッションに出た。

  • Katrin Erk and Sebastian Padó. A Structured Vector Space Model for Word Meaning in Context.

ベクトルスペースモデルは単語と文脈の共起を表したりするのに使われる典型的なモデルだが、文を表すときにベクトルスペースモデルでどう表したらよいか? というのが問題で、(1) 各単語のベクトルのセントロイドを計算する (2) 各単語が要素に入った1つの巨大なベクトルを作る という2つの方法が考えられるが、結局のところ統語的な情報を表現することができない、という問題点がある。そこで本手法では各文法関係に対応した単語ベクトルをそれぞれ作り、文を表現することで解消する、ということを提案する。話はうまく行きそうな感じなのだが、なんか評価を見るとそんなによくなっていない。あと、言語学的知識を使って(たとえば述語に対するそれぞれの項についての単語ベクトルを作ればその述語を表現できるとか)作成する単語ベクトルを決めているようだが、なんかもっと一般的なモデルにできそうである。あと2-3年したら続く研究が出てきそう。

  • Einat Minkov and William Cohen. Learning Graph Walk Based Similarity Measures for Parsed Text.

今回の自分の発表の語義曖昧性解消の部分に似ている話かな? 文中のある単語とある単語の類似度(トークンごと)をグラフ理論に基づいて計算したい、という内容。手法としては解析したテキストデータ(解析結果は1文がグラフ、というか木構造になっている)全部で巨大なグラフを作成し、同じ単語が出たところにエッジを張る。あとはルートノードから辿れば似ている単語は近い距離になっている、という流れで、どのようにグラフを辿るかについていくつか手法を提案している。評価は地名と人名の抽出タスク(シードとしてはすでに LOC とか PER がタグ付けされている MUC のデータを使用)で評価していて、これももっとうまく行きそうに思うのだが(質疑応答で同じようなコメントがあったが)、どうもそもそも MUC のデータがあまり信頼性高くないのでうまく行かないものらしい。そうなのか……

  • Hinrich Schuetze and Michael Walsh. A graph-theoretic model of lexical syntactic acquisition.

今回の自分の発表の前半部分、ブートストラップのグラフ理論的解釈、というところに似ている話。"Bill threw the ball." みたいな文があるとすると、threw と ball の関係的には threw と来たら右側に ball みたいな単語が来やすいことが予測できるし、ball があれば左側に threw みたいな単語が出現しやすそうだ、と分かる。語彙統語パターンを行列の形で表現すると、行列の演算でそういうののモデリングができますよ、という話。何回も演算を繰り返すとある定常状態に収束する、とか、けっこうグラフ理論的に自然言語処理のタスクを解釈する話はちらほら出てきているのかもしれない。(この論文はあとでちゃんと読まないと)

昼間はホテルに帰って少々練習。時間内に収まるかと危惧していたが、大丈夫そうな感じ。というか、実際本番のときは時間余ったし……

自分のセッションは30人くらいかな……座長は Dekang Lin さん。マイクが動かないとかハプニングがあったし、なんか何個か重要な文を言い忘れた気がするが、とりあえず終了。Jason Eisner さんからコメントをもらった(遠目で顔は確認できなかったが、声が特徴的なのですぐ分かる)のだが、なにが質問したいのかよく分からず、的外れチックなことを回答したようで、「ちょっと長くなりそうなのであとでオフラインで」と言われて中断(あとで「あの答えは違います」と shimbo さんに言われたが……)。Dekang Lin さんからはグラフベースの語義曖昧性解消について「label propagation との関係は」というコメントをもらったが、違いは複数ラベルをどう扱うかってところかな? グラフの label propagation については

を最近見かけたので、ちょっと深追いしてみようと思っていたのだが、なんか計算が大変そうなので後回しにしていたのであった。先にやっておけばもう少し議論できたのかも……。

で、発表終わって次の発表者がちょっとセットアップに時間かかっていたので Eisner さんのいたあたりに行ってみたら、それっぽい人がいない。セッション終わったら戻ってきてくれていたが、情報抽出で自分のトークだけ聞いて、機械学習のセッションに移動していたらしい。最初部屋に戻ってきて Dekang Lin さんと2人で話し始め、自分が近づいていったら「あー、そういえばぼくってなんでこっちの部屋に来たんだっけ」と言い出して、Dekang Lin さんが「あとで質問について議論しましょうって自分で言っていたじゃない」と教えてあげたりしていたし、「あー、そうそう、それで来たんだった。で、質問ってなんだっけ……。うーむ、忘れてしまった(10秒沈黙)。あ、そうだそうだ、……」という具合で、なんか忘れっぷりが個人的にツボだった(笑)

結局(本来彼がしたかった質問は)ブートストラップでは一般的にそれぞれのアルゴリズムで定義されたスコアに基づくパターンとインスタンスの選択をしているが、使う共起スコアによっては変なパターン・インスタンスが上位に来る(たとえば PMI を使うと低頻度語のスコアが異常に高くなるという問題が知られている)ので、グラフが変になるのでは、という質問で、確かにその通りで一応 PMI は低頻度語の問題に対応するヒューリスティックを入れているが、ちゃんと収束しないのはそのあたりが原因なのかもしれない。(パターンとインスタンスの選択がなければ、どんな共起スコアを使おうが HITS と同じで絶対ドリフトが起きるので、セッション中の質問に対してはそう答えればよかったようだが……) あと、Future work でシードの選択についてもう少し調べてみたいということを言ったのだが、実は彼も同じような動機で

という仕事をしていたそうだ。昔読んだことはあって、今回はシードの選択については全く関係ないので言及しなかったが、また読み返してみないと。今回の研究について彼はけっこう気に入ってくれたようなので、やった甲斐はあったかなと思う。あとは論文誌にまとめよう(今年中の目標)。

さて、残りは

  • Cory Barr, Rosie Jones and Moira Regelson. The Linguistic Structure of English Web-Search Queries.

で、Yahoo! Inc. の Web 検索クエリの調査と言語学的な分析、そして言語学的な分析をするとどうようアプリケーションが考えられるのか、という話。こういうの、誰かがやればいいんじゃないかと思っていたが、ちょうど同じセッションで聞くことができてよかった。実はけっこう検索クエリにも構造があって、そしてそれは一般的な文の構造と違うので、たとえば新聞記事に最適化されて作られている形態素解析器・構文解析器では、形態素解析とか構文解析はあまりうまく行かない(精度30-40%くらい)、という実験結果。逆に数千クエリほどタグ付けして学習すると精度70%くらいにはなるそうだ(ラベルをもっとしっかりつけるとまだ上がりそうだけど、そもそも曖昧性が高いので難しいのかも)。で、応用例として検索のランキングを上げるのに使えないかと調査してみたが、全く効果がなかったそうで、効果があったのはクエリ書き換えの素性として使ってみたときだったとのこと。このあたり、まだまだやることあると思うのだけど、クエリの文法構造を調べた研究は他に見たことない(分布とかどういうのがあるのかってのは調査した研究は何個かあるけど)ので、こういう研究するなら押さえておいたほうがいいと思った。

最後のトーク

  • Zhifei Li and David Yarowsky. Mining and Modeling Relations between Formal and Informal Chinese Phrases from Web Corpora.

で、たとえば中国語では(特にチャットなんかでは) 88 で「バイバイ」を表すことがあるそうなのだが、これは 88 が音(ピンイン)では baba で「バイバイ」は baibai なので、音が似ているからそういう言い方をする、ということ。まあ日本語でもよくある(2ch 用語とか)。あとは「核爆」を「木亥火暴」を書いたりするとか(日本ではもうこういう書き方をするのはだいぶ古い気がするけど……中国語でもこういうのがあるというのは意外だった)。こういうのが(日本語と同じく?)いろいろあるので、ちゃんとした表現とくだけた表現の関係をモデル化して(transliteration みたいのもあれば、文字の分解によるものもあったりするので、それぞれ別にモデル化する必要がある)マイニングしましょう、というのが研究内容。単語の正規化の一種として見ることもできますよ、とのこと。手法はけっこうナイーブ(というかかなりアドホック)な気がしたが、話はおもしろかった(笑) 岡崎さんも今回の EMNLP の発表内容ではバリエーションの問題に取り組んでられて、そちらのほうが理論的にしっかりしているので、今後岡崎さんが用語のバリエーションとか正規化の一般的なモデルを提案されるのを期待!

さて、クロージングがあるのかと思いきやなかったので、ベストペーパーがなんだったのかは分からずじまい。というか、IJCNLP でもベストペーパーは(松本先生曰く「そんなんがあったの忘れとった。まあなくてええやん」)なかったので、EMNLP でも止めたのだろうか……。Patrick Pantel さんと EMNLP の初日に会って Franz Josef Och さんとか Tim Chklovski さんとか紹介してもらったとき、「マモルの論文今回 EMNLP のベストペーパーに推薦したよ」みたいなことを言っていた気がするのだが……

まあ、それはさておき無事終わり、shimbo さん、岡崎さん、須藤さんたちとお食事。お昼ご飯けっこう食べたのと、時間がまだ早かったのと、そして夕食もアメリカンサイズなのでハードだったが、最後にハワイアンな感じの料理が食べられたのでよかった(実は今回初めて)。スパムむすびは夜食として2日に1度くらい食べていたのだが……(笑) 本場のロコモコ食べてみたかったのだが、どこ行けば食べられるのだろう? 明日空港で探してみるか。