EMNLP 2012 初日: EMNLP は玉石混淆でおもしろい

昨日「インド人の女性の教授がチェックインしたけど、知り合いですか?」と言われ、この時期に来る研究者だったら少なくとも自然言語処理関係者に間違いないと思っていたのだが、朝ご飯のために降りていくと [twitter:@hjtakamura] さんと談笑していたのは知り合いだった。2年前に奈良に来てトークをしてもらったこともある Suma Bhat さんである。実はイリノイ大学アーバナ・シャンペーン校出身で、@hjtakamura さんが在外研究で滞在されていたときは学生だったようで、ニアミスしていたかもしれない、偶然である。

彼女自身はいまも2年前とポジションは変わらず、ポスドクをしているとのことだが、こうやって (ETS の人と共著で) 論文を書いて国際会議に通したりしているし、普通に ACL にも投稿したりしているとのことで、やっぱり一線でがんばっている同期がいると励みになる。写真はいまさらながら ACL の案内スクリーン。

EMNLP には結局3人でタクシーをシェアして向かう。RPG で少しずつ仲間が増えていくような感じ (ルイーダの酒場か?) でおもしろい (笑)

招待講演は Eric Xing さんの "On Learning Sparse Structured Input-Output Models" で、チュートリアル的な内容で分かりやすくて勉強になる。変数間の依存関係をいかにモデルに入れていくかだと思うのだが、そもそもそういう依存関係があるタスクでやらないと意味がないし、いまそういうのが目下効果ありそうなのは述語項構造解析かな。

午前中は Machine Translation: Bilingual Lexicon and Alignment のセッションに出る。委託研究のテーマで関係ありそうだと思って出てみたが、松本先生が全部聞いていたようなので、自分は別のところに出てもよかったかな……。このセッションでは、実用上はさておき、

  • Jagadeesh Jagarlamudi and Hal Daume III. 2012. Regularized Interlingual Projections: Evaluation on Multilingual Transliteration. EMNLP.

がおもしろかったかな。複数の言語の対訳辞書を作りたいのだが、既存研究ではタスクに特化した方法で共通の空間にマッピングして近くなるように学習するという手法 (たとえば CCA を用いたもの) が提案されているが、本手法は中間言語として IPA を用いるので単言語のリソースだけで作れるというところが利点。単語を発音で IPA に落とすのは低次元の空間にマッピングしていることに相当するが、そこでの距離が近くなるように学習する。IPA を用いるのがいいのかどうか分からないが (個人的には IPA にするにしても、素性の形にしたりしたほうがいいんじゃないかと思う。提案手法だと、IPA で違う記号になるだけで全くマッチしなくなるし)、結果を見ると state-of-the-art になっているので、悪くない。質問した人の1人が「英語だけは中間言語に使ってはいけない、音が少ないし発音と表記の対応もバラバラで、全然だめ」ということを3回くらい繰り返して言っていて、そもそも IPA を使うという提案で、IPA ですでに良好な結果を得ていて、英語を中間言語にする動機がないと思うのに「お前は何を言っているんだ」状態だったが、なにか英語にトラウマがあるんだろうか……

ランチはふらふらしていたら Hisami さんと松本先生、そして平さんと会場のレストランで食べることになり、研究所での研究の進め方 (事業部との距離感)、これからの natural user interface 的なことをいろいろ話したり。やっぱり文を超えた解析ができるようになりたいなぁ。しかし千里の道も一歩から、コーパスや辞書を地道に作るのも大学にいる自分 (たち) のやるべきことの一つだな。

午後は Semantics: Nouns, Verbs and Predicates のセッションに出てみたが、

  • Michael Roth and Anette Frank. 2012. Aligning Predicates across Monolingual Comparable Texts using Graph-based Clustering. EMNLP.

が自分の興味に近くておもしろかったかな。述語項構造はいろんな形で実現される (たとえば受動態で書いたり能動態で書いたり) のだが、この項構造が実際のコーパスでどのように出現するのか、ということを、コンパラブルコーパス (同じような内容について書かれている文書集合) を使って抽出するというタスクで、手法的にはグラフカットを適用して見つけるというもの (こちらはそんなに重要ではないが)。言語の生成タスクを考えるとこういったどのように出現しやすいかというような情報が役に立ちそうなので、こういう新しいタスクを提案するというのは興味深い。

夕方はポスターセッション。個人的に一番興味があったのは

  • Daniel Dahlmeier and Hwee Tou Ng. 2012. A Beam-Search Decoder for Grammatical Error Correction. EMNLP.

である。要は最近のフレーズベースの統計的機械翻訳のように英文誤り訂正をやりましたという話で、同じく ACL の short paper で話していた今村さんたちの話の発展系になるのかなと思っていたのである (今村さんたちは日本語格助詞誤り訂正に対して上記のようなアプローチを取っていたが、こちらは英語文法誤り訂正で、しかも5種類くらいの誤りを対象にしているところが違う)。しかしビームサーチでなく exact に求められるんじゃないかと聞いてみたところ、まあ今回はナイーブにやってみただけだとのこと。結果もよくなるならこっちでも試してみてもいいかもしれないな〜。

あと Hisami さんのスペル訂正 IME に関するポスター

  • Hisami Suzuki and Jianfeng Gao. 2012. A Unified Approach to Transliteration-based Text Input with Online Spelling Correction. EMNLP.

を聞いて、いろいろと後ろで実装上の (あるいはシステム上の) 裏話を聞いたりして、なるほどなと思う。論文には書けないこういうのが聞けるからポスターはおもしろいのだよね……。提案手法の実装が簡単だというのは (簡単、の意味にもいろいろあるが) よい性質である。今後 IME は単なる変換だけではなく予測入力やスペル訂正を入れたり、第二言語学習者向けの支援機能を入れたりする方向に向かって行くのかなぁと (というか、一自然言語処理研究者としては、そういう方向に向かってほしいのだけど) 思い、やっぱりこうやってメジャー国際会議にフルペーパーを通さないといけないなと思ったり。

こういう論文も書き方次第で、書きようによっては統計的機械翻訳のより簡単な部分問題 (語順が monotone、つまり先頭からひらがな列をかな漢字混じり列に翻訳していけばいいだけの) に見えてしまい、あっさりリジェクトされかねないので、新しいタスクを自分たちが提案したことが一つ目の貢献で、それに統計的機械翻訳の手法を適用して解きましたというのが二つ目の貢献である、というようなストーリーで書かないとなかなか通らないという話、自分も全く同じように思っていた (少なくとも自分が査読者の立場ならそのように考える) ので、激しく頷いてしまった。

最後にもう一つ、[twitter:@akf] さんの

  • Atsushi Fujita, Pierre Isabelle, and Roland Kuhn. 2012. Enlarging Paraphrase Collections through Generalization and Instantiation. EMNLP.

もおもしろかった。手法がシンプルで、分かりやすくてよい (単純にフレーズベースの統計的機械翻訳器を使えばよい、というところも使いやすい)。これくらい単純な方法のほうがスケールするんだよな〜。手法的にはたぶん言語的に近い言語対でないとうまくフレーズが抽出できないのではないかと思うが、それはマイナーな問題だし、フレーズベースで十分できることを示すだけで有効性のアピールができていて、自分もこんな感じで論文書きたいなと思うのであった。

ACL と違い EMNLP は「こんなのが通ったの?! (落としたほうがよかったんではないか)」と思うような論文もある半面、聞いていて自分の興味に合う (これは自分でもじっくり中を読んでみたいと思う) 論文も多く、総合すると ACL より楽しい。ACL のほうは「ちょっとこの発表はないんじゃないの」というような論文はほとんどないので、安心して聞いていられる、という利点もあるので、これは好きずきかもしれない。ただ、自分的には今回 EMNLP だけの参加でもよかったかなと思い始めてきたりして……(1週間異国でホテル生活、毎日タクシーは疲れる)。

帰りはタクシーを拾おうと外に出てふらふらしていたら、ちょうど帰るところの鍛冶さんと Hisami さんに遭遇し、最初に通りがかったタクシーは鍛冶さんに譲ったのだが、ドライバーがあやしい日本語を操るおっちゃんで、結局3人でシェアすることになった (たぶんスーツケースを見て空港近くまで行くと思い、乗せて帰りたかったのだろうと思う)。思いがけず今回の学会はいろいろと個人的な話も話せてよかった。ときどきは外に出ないとだめだなぁ。