生成の評価について考える

午前中から午後までかけて断続的に12月の自然言語処理シンポジウム原稿の添削（3件）。正直なところ、同時に添削するなら2件が適正な数で3件はちょっと多い。まあ、今回は書くのに慣れている学生たちがいるので、そこまで大変ではないが、コンテキストスイッチが頻繁なのが脳に負荷をかけている……。

お昼を挟んで ACL 読み会。いろいろあったが以下の論文がおもしろかった。

Fomicheva and Specia. Reference Bias in Monolingual Machine Translation Evaluation. ACL 2016.

翻訳の出力を評価するとき、参照文を見せて評価するのと見せないで評価するのとで、参照文を見せるとかなりバイアスがかかってしまう、というお話。言われてみればなるほど、という話なのだが、定量的にいろいろ議論していて参考になる。アノテーションを依頼するとき、この設定のようにリファレンスを見せてつけてもらうこともあるのだが（むしろリファレンスを見せることで、アノテーションの揺れを減らす目的で）、アノテーションの揺れが少なくなったとしてもデータの性質としてそれはよくないかもしれない、ということでもある。

ニューラル翻訳（あるいは翻訳に限らず任意のニューラル文生成タスク）はいかに評価するべきか、ということを最近考えているのだが、ニューラルだと出力自体はなまじ流暢なので、「このキーワードは入れないとダメ」みたいな大学入試の記述試験の採点のようなことをするといいのだろうか？（東大の世界史や地理の問題なんか、問題文から採点されるキーワードを思いつき、それを流暢につなげる、ということをするわけだが、いくら流暢でもキーワードを外していたら点数にならない）

夕方は学内の委員会。そろそろ年度内にするべきことをファイナライズしていきたいが、やってもやっても新しい仕事が生まれる感がある。むしろ何もしないのが（局所）最適解ではないか、という気がしている。ただ、個人としての最適解と全体としての最適解は違うので、ある程度改善すべきところは改善しておかないといけないけど。（次にこの委員になったらここを変えよう、というリストがだいぶ溜まってきている）