測りたい評価尺度で最適化

今日は朝から東工大すずかけ台キャンパスで ACL 読み会。ACL というのは自然言語処理のトップカンファレンスで、世界中から最先端の研究内容が発表されるので、みんなこぞって読み会を開催するのである（Microsoft Research でインターンシップをしたときも、ACL でおもしろいと思った論文の紹介、みたいなミーティングがあった）。夏にはいつも最先端 NLP 勉強会という論文読み会があるのだが、今年はなぜか土日開催になってしまい、それならばと東工大で読み会が開催されることになったのであった（自分も土日開催に反対票を投じていたのだが、土日になってしまったので、最先端 NLP 勉強会のほうは土曜日のみ参加）。

ちょうど間に合うように準備していたら、急遽保育園の送りを頼まれたので、1時間遅れで到着。午後に発表を入れてくれていたので助かった。

お昼は奥村・高村研の研究室にお邪魔させてもらった。すずかけ台に来るのは5回目くらいだが、実は初めて。かなり広くてうらやましい。日野キャンパスも都心からかなり遠いのに、なんであんなに狭いんだろうなぁ（都心にキャンパスがある大学よりは広いと思うが、農工大と同じくらいのスペースか？）。

自分は

Kevin Clark and Christopher D. Manning, Entity Centric Coreference Resolution with Model Stacking. ACL-IJCNLP 2015. スライド

を紹介。共参照解析とは、文章中の名詞で同じ実体を指している表現を同定するという処理なのだが、典型的には表現同士のペアが同じ実体を指しているかどうかを分類する問題として解くのだが、これだと既に同じだと分かっている表現に関する知識が十分に活用できない（たとえば he と Clinton が共参照関係にあることが分かっていれば、Hilary Clinton ではない、という推論ができる）、という問題を、それまでに解析された実体のクラスタとの間の素性を用いることで解消する、という手法。実際効果があって、現時点では世界最高精度を達成しているようである。

やりたいことはフムフムという感じで、日本語を対象としてこういうことをやりたくて去年の秋から今年の夏前まで延々実装に取り組んでいた学生がいるので、興味があって読んでみたが、じっくり読むと、どうも性能の向上はクラスタを作って解析しているところというよりは、最終的な評価尺度を用いて最適化しているところにあるようで、そりゃそうだろう、という感じ。機械翻訳でも最初は統計モデルでやっていたが、今は最終的に性能を比較する BLEU という自動評価尺度が最大になるように学習するのが普通だし、それができるように手法を工夫した、というのが本研究の貢献かと思った。

うちの学生、けっこう熱心に実験するし、そこそこサーベイもしてこのような割とよい研究アイデアを思いつくことも多いのだが、（特に大学院から進学してくる人は、勉強時間をあまり取れず）実装能力とご相談、ということになりがちなので、もったいない。

実装能力を上げるには場数を踏むのが一番手っ取り早いので、とりあえず夏までのタスクを決めてそれに向けて入学直後からサーベイしてもらい、夏にがっつり実装して1回実験結果を出す、というところまでやってもらい、そこから先はお任せする、というのがいいのかな。今年の B4 の人は大体そうなっているのだが、M1 から入学する学生がどうするのがよいか、毎年悩んでいる……。

個人的におもしろかったのは以下の3つ。

Greg Durrett and Dan Klein. Neural CRF Parsing. ACL-IJCNLP 2015.
Karthik Narasimhan and Regina Barzilay. Machine Comprehension with Discourse Relations. ACL-IJCNLP 2015.
Nghia The Pham, German Kruszweski, Angeliki Lazaridou, Marco Baroni. Jointly optimizing word representations for lexical and sentential tasks with the C-PHRASE model. ACL-IJCNLP 2015.

このうち1番目のは最先端 NLP 勉強会でも紹介があったので、下の2つを紹介する。
Narasimhan and Barzilay (2015) は、[twitter:@hitoshi_ni] さんが紹介してくださったのだが、machine comprehension（自動理解？）に関するタスクで談話解析をどのように活用すればいいか、という問題で、既存の談話解析ツールをそのまま適用するより、談話解析ツールと最終的なアプリケーションは同時に学習（最適化）したほうがよい、という研究。話としてはなるほど、という感じで、談話解析のような単体での精度が十分でないと一般に思われる要素技術は、どのようにアプリケーションで使うかを考えて最適化すべき、というのも納得。最近の深層学習ブームで注目されている End-to-end の学習をするというのとも同じことを言っているのだと思う（この論文は深層学習ではないが）。Regina Barzilay はいつも着眼点がおもしろい論文を書くので、彼女のグループの論文を読むのはいつも楽しい。

Pham et al. (2015) は、word2vec 以降最近流行りの分散表現の学習についてのお話で、フレーズの分散表現を学習したいのだが、既存の（しばしばアドホックな）フラットな構造でフレーズの分散表現を学習すると、意味の構成（端的には、足し算や引き算）性を満たさないのでは、という危惧がある。そこでこの C-PHRASE モデルというのは、フレーズの構造を考慮して分布類似度の計算をすることで、統一的に単語から文の意味まで計算することができる、という提案である。実際いろんなタスクで高い精度を示しているし、モデルも単純で、構文木が必要なのであるが、構文木は分散表現を学習するときに必要なだけなので、デコードするときには不要という利点がある。よくよく論文を読んでみると、語順の制約が強い言語でないとあまり効果がなさそうな気もするが、シンプルなのでほとんど言語非依存だし、かなり使いやすそう。

夜は BBQ があり、参加したかったが、7月の北京出張が響いているのと、9月は最低1回日曜日に外出する（広島の宮島で NL 研開催）ので見送り。9月も夜が厳しい……。