COLING 2012 本会議3日目: 一つの研究テーマを掘り下げるとおもしろくなる

とうとう本番。[twitter:@tomo_wb]くんのポスター発表である。ポスターなので、口頭発表と違い複数人で説明ができるので、共著者で分担するのである。招待講演の直後だったせいか、ちょうど会議の真ん中の日で一番参加者が多かったせいか、とても人が集まる。

英作文の校正会社の人が強い興味を示してくれたことと、JoelさんとMarkusさんが聞きにきてくれたのが記憶に残る。みんなが注目してくれて、この仕事の次に研究を進めてくれるような、そういう研究をするのは、形容し難い複雑な気持ちになる。一言で言えば嬉しい、という言葉なのだが、一緒に、あるいは交互に先頭を走っているような、信頼感を感じるし、満足感のようにも思えるが、この研究は中間報告で、色んな人に「この次の研究も興味がある、ぜひ続けてほしい」とも言われ、自分たちもそうしたい、とも思うのである。

Joel さんのコメントは、学習者の誤り別に評価するのはよいが、結局前置詞がよく訂正できて時制が訂正できなくなったとしたら、全体としてそれは学習者の支援につながっているのかどうか分からないので、誤り全部を対象にするのであれば、文全体を考慮した評価もしたほうがいい、ということで、納得。

結局のところ、評価尺度をどうするか、何を研究対象にするか (どのようなテキストを収集して、どのような情報を付与するか) ということが「この研究は本当に役に立つのか、何か分かったことになるのか」という問題につながっているわけで、簡単に評価できる評価尺度と標準的なコーパスの存在はその分野の研究を促進するが、盲目的に使うだけだと、その研究で論文は書けるかもしれないが、世の中に本質的な貢献をしていない危険性がある。そういう問題分析能力こそ、大学で身に付けるべき能力であり、自然言語処理で大事にしていく必要があると思う。

Markusさんのコメントは (残念ながらポスターが同じ時間だったので、お互いほとんど聞けず、正規の時間が終わったあとに簡単に紹介しただけだが)、小規模な学習者コーパス、あるいは大規模なネイティブコーパスを用いて局所的な情報だけでできる誤り訂正はこれまでたくさんやってきたので、統語的な情報を使ったり文を超えるような文脈・談話の情報を使ったりしないと解けないような誤り訂正の研究の重要性が示されたのは興味深く、ぜひこういう「難しい」誤りの訂正に挑戦してほしい、ということ。確かに簡単に思いついてできるところは一通り終わっていて、本当におもしろいところはここからなのだろう。

Markus さんの論文は

  • Marwa Ragheb and Markus Dickinson. Defining Syntax for Learner Language Annotation. COLING 2012.

というもので、数分しかポスターを見て説明を聞いていないが、学習者のテキストに統語的な情報をアノテーションしたいとき、どのようにするとよいか、という話を議論しているもので、単語の品詞に基づく依存構造をベースにするか、単語の分布に基づく (つまり品詞は無視した) 依存構造をベースにするか、述語項構造 (これは統語というより意味的なものだが) をベースにするか、など多層的なアノテーションが考えられ、それぞれ得失があるのだが、意味的なアノテーションは統語的な情報を参照しなくても (つまり、訂正の方法が分からない、あるいは複数の訂正が可能でも) つけられることが多いので、述語項構造に従ってつけるのがいいのではないか、というような話。

個人的な疑問点としては、学習者の文そのものにアノテーションする、という前提があやしいと思っていて、学習者の文を添削したあとのものは、言語的に正しい文になっているはずなので、統語情報がつけられるだろうが、学習者が書いた文そのものに統語的な情報をつけるのは苦しいのではないか、と思うのである (だからこそ、述語項構造がいいというのは、統語的な情報を完全につけるのは諦める、ということなのかもしれないが)。

ともあれ、このように学習者のテキストにどのような情報をつけるべきか、ということは最近ちょうど悩んでいたところだったので、英語を対象にしたこのような言語学的な研究があるというのは、とてもありがたいことである。

午前中のセッションは構文解析に出てみる。

  • Yoav Goldberg and Joachim Nivre. A Dynamic Oralce for Arc-Eager Dependency Parsing. COLING 2012.

が質疑応答も含めて興味深かった。オンライン学習でトレーニングする決定的な依存構造解析器では、現在のシステムが間違えたときにモデルを更新するのだが、どのような出力を間違いだとするのかについて、人手でつけた正解だけから学習すると、どこかで間違った選択肢を選択すると、そこから先どうやっても正解に到達できないため、学習が不安定になる (テストのとき、未知の事例に遭遇しやすい) ということがあるのだが、そういうときは現在到達できるベストなパスを正解だと思ってモデルを更新する、というのが提案手法。質疑では他にどういう手法を試したかいろいろ話してくれたのだが、やっぱり一つの分野でずっと研究を続けている人たちの話を聞くのはおもしろい。

セッションを移動して機械翻訳に行く。

  • Xinyan Xiao, Deyi Xiong, Yang Liu, Qun Liu and Shouxun Lin. Unsupervised Discriminative Induction of Synchronous Grammar for Machine Translation. COLING 2012.

を聞く。これまでの木構造を用いた統計的機械翻訳では、まず木構造を仮定しない単語対応 (アライメント) を求め、そこから翻訳モデルを構築していたが、ここで得られる木構造は必ずしもアライメントと整合性がない、という問題があった。そこで本手法ではこの2ステップを統合し、識別的学習することで任意の素性を使えるように拡張し、木構造の導出と対応関係の抽出を同時に行なう翻訳モデルを提案する。結果もかなりよいし、ストーリーも明快だし、納得の研究である。BLEU 以外に翻訳がよくなっているか調べていない (翻訳結果を目で見ていない) そうだが、本当に翻訳の質がよくなっているかは、ちゃんと調べたほうがいいだろうけど。

午後のセッションは機械翻訳のはしご。

  • Bevan Jones, Jacob Andreas, Daniel Bauer, Karl Moritz Hermann and Kevin Knight. Semantics-Based Machine Translation with Hyperedge Replacement Grammars. COLING 2012.

結果はちょっと信頼性が低い (簡単な設定で解いている) が、おもしろい。意味をグラフで表現して統計的機械翻訳に載せ、デコードするという枠組み。こういうように意味・談話解析を統計的機械翻訳に入れていくのは、難しいのかもしれないが (統計以前の機械翻訳では、使われていたのだろうが)、こういうのこそやりたい研究である。ちゃんとスケールするのかなぁ。

夕方のセッションはタイトルで聞きたかったのは以下。

  • Alan Akbik, Larysa Visengeriyeva, Priska Herger, Holmer Hemsen and Alexander Löser. Unsupervised Discovery of Relations and Discriminative Extraction Patterns. COLING 2012.

紙のアブストラクトが配られなかったし、iPad mini しか持っていなかったので、論文を読んでいなかったのだが、想像したのと違う話で微妙だった (しかしこの発表が終わったら部屋からゾロゾロ人が出て行ったので、きっと他の人も聞きに来ようと思った動機は同じだったのであろう)。要は関係抽出のパターンとして依存構造のパスを使ったらよかった、ということなのだと思うが (論文を読んでいないので外しているかも)、依存構造のパスのべき集合 (power set) を使う、とも言っていたので、もしこれが利いているのだとすると、kazuo-h さんが言っていた「グラフ上の walk を用いた類似度の計算にギャップのあるパスを許したい」というようなことができるのかな?

夜はシタールを聴く夕べに出るが、朝のポスターで力尽きていたので眠い。かろうじて [twitter:@hitoshi_ni] さんとビールを飲む約束のために踏ん張って、東中さんが IIT の学生を捕まえて聞き出してくれた地元のおいしいお店に9人ほどでぞろぞろと行く。さすが地元の人のお勧めだけあって、日本人的には安い値段 (ビール代込みで1人あたり1,000円くらい) で相当おいしい。@hitoshi_ni さんと [twitter:@niam] さんも今日が発表だったので、お疲れさま会 (ryu-i さんは明日が発表だったようだが……)。ときどきこうやって英気を養うのはよいことだな。