EMNLP 2012 2日目: 自然言語処理の最先端の課題は言語理解

[twitter:@hjtakamura] さんが朝早くに帰国されたので Suma と2人で朝食 & タクシー。彼女はベジタリアンで朝食も特別な食事を持ってきていてそれを食べているが、昨日のポスターレセプションで出た軽食は、ベジタリアンが食べられるものはフルーツくらいしかないのに、一瞬でなくなってしまって困った、とのこと。来年の IJCNLP@名古屋もベジタリアンメニューを用意しておかないと同じような不満が聞かれるのかもしれない……(今回はコーヒーブレイクのコーヒーもインスタントコーヒーで、けっこう文句を言っている人がいた)


(写真は昼に食べた韓国冷麺)

朝イチは Patrick Pantel さんによる招待講演で、"The Appification of the Web and the Renaissance of Conversational User Interface" という話。Appification というのは造語で、iPhone アプリや Android アプリのようなアプリになる、という意味だそう。これからのウェブ技術はアプリ経由でアクセスされるようになる、というお話。これも (ACL の Mark Johnson さんの講演と同じく) ウェブ関係のデータを使ったり仕事をしたりしている人には当たり前の話だと思うが、当たり前の話が当たり前でない人にとっては有用な話だったんじゃないかと思う。

それより自分が興味あったのは、いま Pantel さんが「最先端の自然言語処理の諸問題」を5つ挙げていたところ。順に

  1. スケーラビリティ (多言語、多分野)
  2. 評価とデータ (リソース)
  3. マルチモーダル処理 (音声、タッチ、手、ジェスチャー、表情、視線など)
  4. 対話 (確率モデル)
  5. 言語理解

が大きな問題だということ。前半の2つは実践的な話で、実際に使えるものを作るにはどういうことを意識しないといけないか、という話。後半の3つは、これからどの分野が来そうかという話。いくらこれまで Bill Gates が「natural user interface が普及する」と言っていても叶わなかったのに、Apple が Siri のような音声対話 (検索) システムを出したら一気に世の中がそちらに流れるというのはなんだかもやもやしたものがある。質疑応答で「natural user intefrace というけど携帯電話でブラウジングして予約したりするのは本当に natural なんでしょうか? 電話をかけたりするほうが自分にとっては自然です。提案されているのは実は unnatural user interface ではないでしょうか?」というコメントがあったが、確かに unnatural user interface であり、そうだからこそ広まるんじゃないかなぁ。

午前中は Discourse and Generation → Information Extraction: Temporally-Aware Extraction とセッションを移動。

  • Thomas Lin, Mausam, and Oren Etzioni. 2012. No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities. EMNLP.

がいちばんおもしろかったかな。Wikipedia に載りうるような実体 (entity) を全部列挙したいというタスクで、時系列テキストデータを用いると実体なのか単なる名詞句なのかを判定できる、というアイデア一発なのだが、発表が分かりやすくてよかった。

ランチは [twitter:@katsuhitosudoh] さん、[twitter:@sryang_] さん、[twitter:@Wildkatze] くん、[twitter:@gimite] さんらと韓国冷麺を食べに行く。初めて食べたがけっこうおいしい。自分的には毎日これでもいいかもしれない (あと韓国肉まんじゅう)。

午後のセッションは Evaluation → Large-Scale NLP Algorithms → Information Extraction: Relation and Event Extraction と移動。

  • Taylor Berg-Kirkpatrick, David Burkett, and Dan Klein. 2012. An Empirical Investigation of Statistical Significance in NLP. EMNLP.

は立ち見が出るほどの人出でびっくりした。トーク (話し方) はおもしろかったが、理屈で分かっていることを自然言語処理のいろんなデータ・タスクで検証しましたという話で、検証する前から分かっていることだから調べても意味がない、という反応を後で聞いてそれもそうかと思う。

質疑応答で、自然言語処理は最近でこそ統計的に有意かどうか気にするようになったが、p=.05というのは心理学からもってきた数字で、物理学では有意水準として10^-8みたいな小さい値を使ったりするし (そもそも有意水準として出して意味があるかという問題もあるが)、自然言語処理はもっと厳しい有意水準を使うべきではないか、というコメントがあり、それは至極納得。妻と話していると一つ一つのサンプルの持つ意味が自然言語処理と全然異なり (1年かけて数十例しかサンプルが取れない場合もある。そもそも日本全国で発症数が年それくらいしかなく、最大限取っても数十例に満たないとか)、そういう分野と数千事例すぐに作れる分野が同じ有意水準で比較されるのは、ちょっと申し訳ない気がするのである。そういうことを常日頃考えていたので、統計的に有意かどうかを (p=.05 で) 検定するような暗黙の了解ができつつある言語処理業界に一石を投じるという意味で、この発表は (少なくとも出席した人には) 記憶に残るものではないかと思った。

あと、

  • Amit Goyal and Hal Daume III. 2012. Fast Large-Scale Approximate Graph Construction for NLP. EMNLP.

が [twitter:@smly] くんの研究に関係があるかなと思って出てみたが、あまり関係なかった。しかしグラフを使った手法は最近よく見かけるので、早いところ論文誌に出してしまったほうがいいのではないかと思う。

夜はおみやげを買うために松本先生とホテルの近くでみやげもの屋を探す。一応自分のほしいものは入手したので2人で夕食 (結局 EMNLP に参加した他の方々と同じ店になったが、松本先生の体調がよろしくなく、早く帰りたいというので合流せず)。秋から来る留学生の人 (たち) の話とか、今年の受験生 (ちょうど今週が入試だったので、すでに採点は済んでいるはず) の話とか。座席は足りるのだろうか……(どう考えても1席足りない気がする) 

いま研究大学ではなかなか助教を置かず、大きな研究費を取って任期付の特任教員を雇用して研究することが増えているそうだが、それはあまりよくないのでは、というようなお話を聞いたりする。自分も任期付の教員なのでなんとも言えないが、大きな研究費を取り続けないと研究室が維持できないというのは、確かに日本が向かうべき方向ではないのかもしれない。

深夜までかかって絵はがきをせっせと執筆。いつも10枚セットを買って書くのだが、今回失敗して10枚セットを2組買うことになってしまったので、深夜2時までかかって、全部使い切らずに途中で断念。次国際会議に行くのはいつのことになるやら……