ACL 2013 1日目: 言語処理も巨大になり研究分野が分化してきた

ACL本会議初日。今回どうせクロージングも聞けないし、ということで基調講演から参加。去年の心理言語学の話はとても刺激的でおもしろかったのだが、今回はいまいち。そういえば9月2日には東大本郷キャンパスで開催される ALAGIN・NLP 若手の会合同シンポジウムで、慶応大学の今井むつみ先生に「語彙習得における記号接地問題――子どもとＬ２学習者はどのように語彙システムを構築するのか」というお題で招待講演をお願いした ([twitter:@caesar_wanya]さん、ありがとう！) ので、興味のある方はお越しいただけるとよいかなと思う。参加費無料、入退場自由なので、言語処理に関係ある方もない方も、若手の方もそうでない方も、大歓迎である :)

(写真は今回の会場となった The National Palace of Culture。中はとてつもなく巨大)

さて、午前中、あまりセッションを動かないで聞こうかとも思ったのだが、部屋の間の移動時間も考慮したスケジュールになっていたので、いろいろとはしごする。とはいえ、建物の中がダンジョンになっているので、これは迷わないほうがおかしい……(この点 [twitter:@hitoshi_ni] さんも同意してくださった)。午前中のセッションでは、

Greg Durrett, David Hall and Dan Klein. Decentralized Entity-Level Modeling for Coreference Resolution. ACL 2013.

がよかった。共参照解析で、たとえば代名詞の先行詞を同定したいとき、先行詞の指す先の実体 (エンティティ) がどのような性質を持っているのか、といった情報を参照して解析したい。先行研究でもそういう実体の属性を考慮したモデルが提案されているが、計算量的に困難である (全ての先行詞候補がどのような実体群に分割できるか、あらゆる可能性を考慮しないといけない)。そこで、実体を扱うことをやめ、先行詞を直接用いることにして、推移律を考慮した共参照解析のための因子グラフ (factor graph) を設計することで、効率的にこの問題を解く方法を提案する、というものである。シンプルなアイデアで納得の結果である。どういうことが分かれば談話解析ができるのか、まだ未解決の問題だと思うのだが、このような推論 (と呼ぶには単純であるが) のアーキテクチャを組み込んで解く、というのは一つの方向性であると思う。

お昼は成り行きで松本先生、[twitter:@Yuki_arase] さんと3人で会場の近くの Mr. Pizza というレストランに行く。チェーン店らしいのだが雰囲気はよく、名前とは裏腹にピザ以外のメニューのほうがはるかに充実。けっこうおいしい。松本先生からNAISTの最近のお話を聞いたりする。松本研も公募を出しているのだが、今回は宣伝していないらしく、誰か応募してくれるのだろうかとぼやいてらした。首都大は「女性助教」の公募を出していて、これに至る裏話を聞いて致し方ないということも分かるのだが、5年で雇い止めにつながる労働契約法の改訂といい、ますます大学教員になりたがる人が減るのではないかと思わなくもない。あと、複数の方から、松本研の助教は激務そうだから敬遠されているのでは、とのご指摘をいただくが、いま助教が1人でも半年問題なく動いているので、激務というわけではないのではないかと思う (NAIST の助教自体、ほとんど研究だけしていればよいポジションであるし)。

午後もセッションをはしご。どれも外れはないのだが、特にこれは万人にお勧め、という発表はないかなぁ。個人的には

Taylor Berg-Kirkpatrick, Greg Durrett and Dan Klein. Unsupervised Transcription of Historical Documents. ACL 2013.

の問題設定がおもしろかった (というか、Dan Klein のグループの発表はどれもおもしろかった)。デジタル化された歴史的資料の OCR を教師なしにやろうという話で、活字で書かれた文書がたくさんヨーロッパ語圏では残っているのだが、フォントが違ったり高さが違ったり、インクの濃さが違ったり、といった問題があるので、教師なしにこれらを解決してやろう、という話。[twitter:@togiso] さんの統計的日本語史プロジェクトで古典のテキストにも最近興味がある。日本語だと活字ではなく手書きのテキストが多いので、解決するべき問題は違うところにあるのかもしれないが、昨日のチュートリアルの暗号解読と言い、未知のテキストを処理するという話にちょっと興奮するのは昔古代ものが好きだったせいだろうか。

あと

Richard Socher, John Bauer, Christopher Manning and Andrew Ng. Parsing with Compositional Vector Grammars. ACL 2013.

も、深層学習 (deep learning) を用いた構文解析の正統な進化系という感じで、興味深かった (ただし、自分がこのような研究をすることはないだろう)。Richard Socher さん、トークの最後で学習された行列を可視化して「deep learning はなにを学習しているのか分かりにくいという批判があるが、このように見ることもできるので、必ずしもその批判は妥当ではない。deep learning コワクナイヨー」という紹介をされていたのが印象的であった。

最後の口頭セッションはショートペーパーで、移動時間も少ないので Syntax and Parsing のセッションに出てみる。中では

Ryan McDonald et al. Universal Dependency Annotation for Multilingual Parsing. ACL 2013.

が見所あったかな。構文解析を用いた機械翻訳に向けて、多言語の構文解析のための普遍的な依存構造のアノテーションをつける、という話。質疑でいろんな人が「英語を中心に考えられているアノテーションなので、他の言語でもこれが妥当なのか疑問である」というコメントが相次いだが、Google の中の人たちもそんなことは百も承知で、これがベストだと言っているわけではなく、機械翻訳をよくするという目的からすると、このようなアノテーションが現実的であり、実際機械翻訳でも性能が向上しているので、とりあえずの叩き台として、これくらいがいいのでは、という提案なのである。ACL は言語学寄りの人もけっこう参加するのでこのようなコメントがよくあるが、アプリケーションを定めないと結論が出ない (どのようなデザインにするのがよいか決断できない) ようなケースも自然言語処理ではよくあり、「これがベストだとは思わないが、とりあえず機械翻訳のためにこうしている」という進め方にシンパシーを感じるあたり、だいぶ自分は工学寄りの考え方になっているのだと思う。

夕方はポスター。我々は

Keisuke Sakaguchi, Yuki Arase and Mamoru Komachi. Discriminative Approach to Fill-in-the-Blank Quiz Generation for Language Learners. ACL 2013.

の発表のため会場へ。最近言語生成に興味があるのだが、今回は言語学習者のために、動詞の穴埋め問題 (センター試験や TOEIC/TOEFL であるような) の選択肢を生成する、というタスクに取り組んでみた。このような穴埋め問題生成にも先行研究はあるのだが、先行研究はどれも類義語辞書や対訳辞書を用いた手法であり、学習者がどのような動詞をどのような動詞に間違えやすいのか、というような知識を用いていなかった。そこで、本研究は大規模な英語学習者のコーパスからこれらの誤り方のパターンを抽出することで、選択肢の生成を行なう手法を提案した。

「よい問題」というのは (1) 複数の選択肢があるとき、ただ一つだけの選択肢が答えとなっている (2) 問題への応答によって学習者の語学能力を正確に推定できる、という2つの性質を満たすもの、であるが、(1) の性質を確かめるために3人の英語ネイティブに生成された選択肢をチェックしてもらうという実験、(2) の性質を確かめるために23人の日本人英語学習者に生成された問題を解いてもらい、TOEIC との相関を測るという実験を行なって、いずれの実験においても提案手法が高い性能を達成することを示した。

裏話としては、この実験設定で行くということになったのは本当に最後の最後で、〆切の1週間前にまだ実験結果が揃っていなかったので、結果が揃わないまま (こういう結果になるだろう、という見込みのもと) 論文の執筆に着手して、3人の間で怒濤の勢いで添削のやり取りがあり、なんとか結果も間に合って駆け込み提出できた、ということがある。もちろん実験を依頼する前に各手法で生成された結果を見ているので、大きく外した結果にはならないだろうという見込みはあり、ネイティブによるチェックも済んでいたので大体予想通りであろうとは思っていたのだが、最終的に非ネイティブの実験も思った通りの結果になってホッとした (笑)

ところで、ポスターは全部で3時間で、我々は前半1時間半だけの予定だったが、結局3人で交代しながら (2人が常にポスターの前にいるようにして) 3時間ずっと立ちっぱなし。時間が長かったせいか、予想以上にいろいろな人に来てもらってよかった (COLING のときは1時間しかなかったので、あまり説明できなかった)。[twitter:@keiskS] くん、[twitter:@Yuki_arase] さん、お疲れさまでした！　ちなみに、何人かの方からどのような応用があるのかという質問があったが、実はBing の中国語サイトで単語選択問題アプリが公開されている :-)

あと、自分が休みをもらっていた時間、前半は ryu-i さん、後半は甲南大の永田さんと近況報告をしたが、それぞれ国内ではほとんど話す機会がなく、もっぱらこうやって海外に来たときによく話している気がする……。こうやって国際会議で会えるというのは、お互いそれぞれの場所でちゃんと研究をしているということなので、励みになる。来年もこうやって国際会議に来られるといいな。ただ、いろんなセッションをふらふらしていて、よく会う人、(懇親会やコーヒーブレイク以外で) ほとんど会わない人が分かれてきて、研究的な関心・嗜好の違いが出てきたのかなと思ったりする。5パラレルのセッションになると、どうしても会わない人が出てきてしまうのは仕方ないが、自分ももっと食わず嫌いせず聞いたほうがいいかも、と思わなくもない。

帰りはちょっと暗くなっていたので @Yuki_arase さんを会場近くのホテルまでお送りし、自分のホテルまで戻ると、松本研組が4-5人で発表練習していたので、[twitter:@tuxedocat_tw] くんと [twitter:@1pwai] くんの発表に付き合う。結局内容的にはここに至るまでに何回もいろんな人からコメントをもらっているところなので、発表時間にちゃんとぴったり合うかというところの確認になる。2人とも、ちゃんと何回も練習してきているので、そんなに緊張することないんじゃないかな？

来たと思ったらもう明日は最終日を待たずして帰る日なので、帰って荷造りしたり……。やはりせめて本会議の3日間くらいは全部出られるといいな。来年は最初から日程を確保しておこう。