毎年継続的に論文を読むトレーニング

朝から COLING 2014 読み会である。メジャー国際会議の論文をみんなで読もうシリーズ第2弾。今回は全員公開前提でスライドを作ってもらったので、すでに自分を含め4/11人がスライドを公開している。さすがに動画を配信したりするほどではないが、スライドがあると手っ取り早く概要が分かるので、どしどし公開してもらいたいと考えている。

さて、自分が紹介したのは

で、*large/broad knowledge のような形容詞-名詞の語彙選択の誤りを検出するタスクについての研究である。そもそも内容語(名詞・動詞・形容詞など)の語彙選択誤りは、機能語(冠詞や前置詞)と違ってオープンクラスでたくさんの訂正候補がありうるため、学習者の誤りの数としては多かったのだが、これまであまり研究がなかった(ちなみに我々が ACL 2013 で取り組んだ動詞の誤り訂正はリファーしてくれていなかった)。そこで、まず英語学習者の作文における形容詞-名詞の誤りのアノテーションつきデータセットを作成し、その上で誤り検出タスクを行う、というのが概要である。

誤り検出に構成的な意味の計算モデルを使っていて、その部分に興味があって読んでみたのだが、実験のセクションを読むとベースラインも提案手法もそこまでちゃんと比較されていないので、あまりこの部分の研究的な貢献は大きくない。あくまで、データセットを自分たちで作り、形容詞と名詞の共起に基づくベースラインと教師あり学習を用いた手法でこのタスクを解いているところが貢献だと思う。

COLING の論文を読んでいておもしろいのは、ACL や EMNLP といったちゃんと実験をしないと落とされるトップ国際会議と違って、ランクが落ちるため、多少実験がいまいちでも採択されるので、アイデアや設定はなるほど、というような論文が救済されることである。この研究も、誰かがやらなければならなかったけど、アプローチしにくいので残っていた問題を、ちゃんと自分たちでデータを作って取り組んでいる研究であり、クオリティはともかく自然言語処理としてあるべき研究の姿の一つであって、よい研究である。

日本語でスライドを作っていたのだが、台湾からの留学生が2人いたのを忘れていたので、スライドが日本語(漢字を読めば多少分かる)で説明が英語という少し変則的な感じであった。まあ、聞いている方は自然言語処理が専門ではないので、英語で聞いたからといって分かるとは限らないが……。

他の人たちの話もどれも興味深く、議論も活発でよかったと思うが、特におもしろかった3件はどれも Slideshare に上げてくれている。論文的には微妙だが発表は分かりやすかった人もいるし、逆に論文的にはおもしろそうな雰囲気だが発表を聞いただけでは疑問点が残る人もいたが、以下の3件は両方バランスがよかった。(ちなみに小町はどれも論文を読んでいないので、間違ったことを書いているかもしれない)

1件目は畳み込みニューラルネットワークを関係分類タスクに適用したという話で、画像認識では大きさの異なる画像を比較したりしたいので畳み込みをしたい気持ちは分かるが、自然言語処理では畳み込みに何か利点が?と思っていたら、自然言語処理でも語や句、文などさまざまな粒度の言語表現を比較したいので畳み込みニューラルネットワークが注目されている、という話で、納得。パラメータ数が減るとか、局所的な構造を考慮できるだとか、そういうところの利点がどれくらいあるのか分からないが……。

関係抽出は深層学習がいかにも効果ありそうなタスクの一つだし、ものすごく素性エンジニアリングをしてあらゆる知識を総動員してチューニングしたモデルに、ほぼ単語の情報しか使っていない深層学習のモデルが並ぶというのは、とても impressive である。学習に時間はかかるかもしれないが、分類は一瞬だろうし、いろんな解析器を動かして素性を抽出しなければならないわけではないので、実用的にも(精度と速度が問題なら)有用性が高いと思う。

2件目は、統語構造を考慮するために再帰ニューラルネットワークを用いて感情極性分類をするお話。個人的には畳み込みニューラルネットワークより再帰ニューラルネットワークのほうが自然言語処理には合っている(言語はそもそも再帰的な構造を持っている)と思うので、素直なアプローチだと思う。手法的にはなぜ1クラスの分類タスクにしたのか説得的ではないが、そこまでクリティカルではない。

むしろ問題なのは実験結果で、F値ではよくなっているように見えるが、そもそも係り受け関係にない単語ペアを含めた極性分類手法に対し、提案手法は係り受け関係になければ対象としないので、再現率を犠牲にする代わりに適合率を上げる戦略である。従って、F値が上がったとしても、単にトレードオフのバランスが変わっただけかもしれないし、Precision-Recall 曲線を見ないと一概に提案手法がよいとは言えないだろう。

あと、提案手法はいろんなパラメータを持っているので、それらが(恐らく提案手法がテストデータでよい結果を出せるように)チューニングされているとすると公平な比較と言えないので、ちゃんと開発データで決めないとダメじゃないかと思う(差がもっと明らかに開いているなら別に予備実験で決めた値でもいいと思うのだが、これくらい微妙だと単に提案手法だけいいパラメータを与えただけである可能性がある、ということ)。

感情極性分類は統語構造を考慮して性能が向上すると嬉しいタスクの一つであり、深層学習が効果あるとかなりストーリーとして分かりやすくてよい研究になると思うので、こういう方向の論文があるのは勉強になった。日本語に適用しようと思うと、省略の問題を解決しないといけないので、統語構造だけの話ではなくなってしまうのだが、むしろそこに研究のタネがありそうな気もする。

最後の論文は Twitter の品詞付与と固有表現認識お話。これまでの Twitter形態素解析に関する研究は、Twitter での解析精度は上がっても、Twitter 以外の解析精度が下がるので、頑健性が高いわけではなく、Twitter過学習しているだけじゃないのか、という問題意識から出発しているそうである。

イデアはシンプルで、1ツイートだけ見ていても情報量が少ないので正しく品詞をつけられないことがあるが、ツイートのリンク先(ウェブページ)まで見ると情報量が増えるので、ツイートのリンク先を見て品詞を付与しましょう、というお話。リンクが含まれているツイートでないと訓練事例を増やすことができないのだが、リンクが必要なのは訓練時のみで、実際に解析するときはリンクが含まれていないツイートでも大丈夫。ウェブテキストを解析するときは、このように使える情報(リンク構造やメタデータ含む)は全部使って解析するのがよいと常日頃思っているので、こういう研究はまさにドンピシャである。(ちなみに、この論文とほぼ類似した方向性の研究をしたい、と過去2回さきがけに申請したのだが、2回とも通らなかった)

気になるのは、リンクが含まれているツイートは含まれていないツイートと表現が異なるのではないか?という点なのだが、あまり関係ないのだろうか……。[twitter:@neubig] さんと [twitter:@kevinduh] さんが、1ツイートに含まれる情報量の研究をしていて、言語によって傾向は違うようだが、140文字という制限の影響が強く見られる言語もあるので、リンクが入っていると書ける文字数が減るし、リンク先見て効果がありそうなのはやはり固有表現だと思うので、他のタスクで同様の手法に効果があるかどうかは分からないだろう。

午前10時半から午後6時までたっぷり1日論文紹介を聞き、準備する方も聞く方も大変だったと思うが、すごく盛りだくさんの1日になって大変満足している。NAIST 松本研でもちょくちょく論文読み会をしていたが、ここまで充実していたことはなかったように思うのだ(割とグダグダになりがちだった)。自然言語処理の基礎勉強会も今年の前期は松本研と同様のラインナップを揃えることができたし、論文を読む環境も整ってきたし、あとは研究だなぁ。