ACL-IJCNLP 2009 本会議最終日: ベストペーパーは構文解析2本・強化学習1本

朝ちょっと寝坊して招待講演の途中から会場へ。朝一は Text Mining and NLP applications のセッション。IBM の人たちの研究だが

  • Kothari et al. SMS based Interface for FAQ Retrieval. PDF

が問題としてはおもしろかった。SMS で入れた分に対して Yahoo! Answers みたいなところから QA を引っ張って来るというものなのだが、入力が

whr cn i fnd d cart kit
watz d most comfy bke seat
whr cn IC d gmes of d Roland Garros n www
w@ r d br&s of 10s balz uz n tourneys
watz d diff btw a mids ize n a mid+ rqts

みたいな感じで、ほぼ暗号に近い。日本語も2ちゃんねるなんかだと用語を知らない人には一見分からない単語で話しているとは思うが……。携帯だと長い単語を入力するのも手間だから短くなるのだろうが、入力の手間だけなら予測入力で解決できる問題だが、たぶん表示するスペースも狭いので(曖昧性のないかぎり)短い単語で入れるのかなと思ったり。それだとすると入力インタフェース側でできることはあまりないなぁ。

あと

  • Mandshadi and Li. Semantic Tagging of Web Search Queries. PDF

は自分のやってたことに関係するので興味があったが、PCFG みたいなものを使ってウェブ検索クエリの意味カテゴリを付与するという研究のようだ。ポイントは語順の入れ替えなんかも検索クエリだと英語の文を書くよりある程度自由(もちろん語順の制約は実はあるのだが、そこは無視しているようであった)なので、構文解析を飛ばして意味解析をしましょう、というお話だそうだ。ウェブ関係のテキストは必ずしも形態素解析構文解析がかっちり決まるものではないが、意味はなんとなく分かることが多かったりして、最初から意味解析をするというアプローチもありではないかと思う。

ランチは Mark と eric-n さんと一緒に会場の外まで食べに行く。麺を食べたのだがけっこうおいしい。やっぱりシンガポールはいいなぁ。

帰ってきたらビジネスミーティングがまだやっていたので出てみたところ、それぞれ次の国際会議の会場がどこかとか、採択率がいくらで国の分布がどうなっているかとかいういつもの話の他に、データベース分野の人たちがちょうど始めたような、通年で論文の投稿を受け付けて、一定の水準以上のものを順番に国際会議で発表させ、いいものをジャーナルに自動的に載せる、というシステムを再来年くらいを目処に導入するそうだ。

現状の問題としてはジャーナルは質が高いけど数は少ないし査読に時間がかかる(2年くらい)、国際会議は数も多く査読も速いけど質がよくない、という課題があって、今回の話はちょうどその折衷案。自然言語処理(情報科学)は国際会議の発表も業績になるという意味では特殊な分野なのだが、他の分野、たとえば物理や化学と比べると、国際会議の発表は価値が非常に低かったり、もしくはなかったりするので、インパクトファクターが計算できたりするようなジャーナルがないと他の分野との比較として見劣りする、という話がある。

質疑応答でも、どのようにするか、いつするかというのだけが議題であり、導入することに関する是非は出なかったので、早ければ来年から導入されるようだ(データベースの学会 VLDB では2008年から導入されたそうだ)。当面は従来のように〆切があってプログラム委員が査読するのと並行して移行するようだが、かなり大がかりな変化になりそう。

午後は K-Best A* Parsing を聞きに行くかどうか迷ったが、結局 Information Extraction のセッションに出る。どれもけっこう興味深い話であったが、

  • Dekang Lin and Xiaoyun Wu. Phrase Clustering for Discriminative Learning. PDF

が興味深かったかな? やりたいことは固有表現認識なんかに使う辞書を unsupervised に作りたいという感じなのだが、検索クエリログからフレーズの候補を抽出し、ウェブ文書に出現する周辺文脈を使って K-means でクラスタリングして辞書にする、という話。そして、K-means を使うところが少しトリッキーで、K をいくつに設定するかという問題がクラスタリングではいつもあるが、一つに決めるのではなく、複数個の K を設定してそれぞれの結果を全部素性として入れて、機械学習でそれぞれの重みを決めさせると、state-of-the-art をしのぐ結果が得られた、というもの。確かに K-means は初期値に依存するし、複数の K を使えば階層構造的なものが入るのでスムージングの効果も得られるだろうし、ウェブから抽出した超大規模(ありとあらゆる固有表現が出てくる)な辞書があるのであれば、K-means は MapReduce するのも超簡単だし、こういうシンプルなアプローチですごくよい性能が出るというのは目から鱗であった。むしろ Google みたいな企業としては固有表現の知識は検索クエリログから取ってきて、文脈ベクトルはウェブから構築する、というのが常識なんだなぁ(そこはもはやシステムの売りにはならない)、というのも感じる。

最後の

  • Katrin Tomanek and Udo Hahn. Semi-Supervised Active Learning for Sequence Labeling. PDF

は、能動学習するときに、現在学習中の解析器が確信度非常に高いところは自動でタグ付けし、確信度が低いところだけ作業者にタグ付けさせるようにすれば、単語単位での作業量を劇的に減らすことができる、という話。考え方は非常にシンプルで、誰かやっているんじゃないのかなぁ、と思ったが、結果は非常によいらしい。ありうる反応として、そもそも作業者は文単位で見ないといけないから、単語単位で見せても実際の作業時間は減っていないんじゃないかというのがあるが、それは評価していないとのこと。結局 CRF を使って学習しているため、文全体にタグをつけないと学習データとして使えないから、文ごとに作業者につけてもらって評価している、とのことだが、yuta-t さんたちの部分的アノテーションを使った CRF と組み合わせれば、文全体につけなくてもいいんじゃないかな? 相補的な技術のような気がした。

Lifetime Achievement Award は Frederick Jelinek さんが受賞。トークがおもしろかった(笑) 統計的な機械翻訳の記念碑的論文、

  • P.F. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, J. Lafferty, R.L. Mercer, P. Roossin. "A Statistical Approach to Machine Translation." Computational Linguistics 16:2(1990): 79-85

が、最初 COLING 1988 に出して査読で「計算機を使ってしらみつぶしに翻訳するなんて科学じゃない。これは自然言語処理の研究としてふさわしくない」と書かれて落とされた(実際は査読結果のコピペがスライドに書かれていた)、というのを聞いてびっくり。新しすぎる考え方は受け入れられないこともあるのだなぁ、と思った。統計翻訳が完全にお蔵入りにならなくてよかったね……。

さて、今年のベストペーパーは3本で、順に

  • Andre Martins; Noah Smith; Eric Xing. Concise Integer Linear Programming Formulations for Dependency Parsing. PDF
  • S.R.K. Branavan; Harr Chen; Luke Zettlemoyer; Regina Barzilay. Reinforcement Learning for Mapping Instructions to Actions. PDF
  • Adam Pauls; Dan Klein. K-Best A* Parsing. PDF

とのこと。2本が構文解析の話ということで、やっぱり基礎技術の評価が高いのだなと思うが、2本目の強化学習を使った話は自分もトークを聞いていて、ウィンドウズのメニュー操作の学習(これをしたら次どれをすればいいか、みたいなの)に強化学習を使うというテーマで、おもしろいなとは思ったけどあまり自然言語処理っぽくないので、よく通ったなと思ったが、受賞した彼女がマイクに向かって「一言言わせてください。実は同じ論文を NAACL 2009 に投稿したらリジェクトされたので、リジェクトしてくれたから受賞できたんです!」とコメントしていて、なるほど!と思う。これももしかすると統計翻訳と同じで10年後に強化学習自然言語処理で大流行していたら記念碑的論文になったりするのかもね……。

来年の大きな会議はそれぞれ以下。

  • COLING 2010 北京
  • NAACL 2010 ロサンゼルス
  • ACL 2010 ウプサラ(スウェーデン)
  • LREC 2010 マルタ

また、ACL 2011 はオレゴンだそうだ。ACL 2012 はちょうど50回記念だそうで、アジア地域での開催になるらしいが、どこになるのかなぁ。日本でやってもいいんじゃないかと思うけど、2003年が札幌だったし、香港とか中国のどこかのほうがいいのかなという気も。シンガポールが思いの外よかったので、香港もいいんじゃないかなと思ったり……。

ではみなさんまた来年お会いしましょう〜!