岡山の次は9月に大阪で

倉敷から岡山県立大へ。検索すると「吉備線」と出てくるのだが、そのような名前の路線はなく不安感を煽られたが、今年の3月に「桃太郎線」に改称したようで、単に Google Maps が対応していないだけのようである。

単線の汽車(電車ではない)なので、待ち合わせてすれ違ったり。おもしろい。

今日は配信に大きなトラブルはなかったので、頑張って質問する(実は座長を依頼されていたが、配信があるので断っていた。配信と座長を両方やって死にそうになった記憶が2回あるので、配信する人は座長はしない方がいいと思う)。

昼間は運営委員会だが、ネットワークが遅いのか何なのか、Skype の調子が悪くグループチャットに難航。Google Hangout の方がいいんだろうか?

ちなみに、今回の NL 研でうちの研究室からの発表は以下の2件。

いずれも興味ある方はUstream の録画を見ていただければいいのだが(8月末まで視聴可能)、発表で触れられなかった・原稿にも書いていない点を少し説明する。

前者は評価極性分類の研究に、最近流行している注意(attention)機構を導入し、句構造にアテンションすることで統語情報も考慮した、という話。句構造にアテンションする、というアイデア東大鶴岡研の江里口さんによるもので、彼女は機械翻訳でやっていたが、評価極性分類でやってみてはどうか? と思ってやってみたら案外効果があったのである。

評価極性分類自体は去年まで [twitter:@so1owingpixy] くんが stacked denoising autoencoder でやっていて、予想外に性能が高く、これは構文解析とか要らないタスクなんじゃないか? と思っていた一方、構文木がいかにも効果ありそうなタスクでもあり、何とか方法はないものか、と[twitter:@marujiruo] くんが依存構造木を試したり、句構造木を試したり、構成関数をいろいろ変えたりしてくれて、何をやってもネガティブな結果しか出ていなかった(特に Stanford Sentiment Treebank では全然ダメで、先行研究に描かれている数字すら出ない)。そこで、今年の年次大会で江里口さんの話を聞いて、これも統語構造を入れる一つの方法だから、試してみては? ということで試したら、割と普通の数字が出て、さらに辞書も入れてみたら先行研究の数字を塗り替えた、という経緯である。

このように句構造にアテンションするというのは、構文木句構造の部分木なので、句構造文法で言うところのフレーズ)を素性に使うことができるという意味でかなりスマートなやり方で、とても良い手法である(江里口さんの着眼点が鋭い)。一方、これは発表の中の今後の課題でも述べたように、エラー分析の結果からは、どうも本来やりたかったような極性の反転(not surprising)や強調(extremely good)のような現象を捉えることができず、今は単に bag-of-phrases(bag-of-subtrees)で分類しているような感じなので、構成関数を(おそらくアテンションを工夫することで)ちゃんと作る必要がありそうである。もっとも、やはり評価極性分類はそんなに複雑な統語情報は不要で、bag-of-phrases 程度で十分なタスク、という可能性もあるので、これを頑張ったからトータルでの精度が上がるかというと、そうとも言い切れないわけであるが……

後者は [twitter:@moguranosenshi] くんが首都大で全て自分でやった初めての研究に当たるもの(去年 NLP 若手の会シンポジウムで発表した内容もそうだが、そちらの話はその後どこにもつながっていない)で、文同士の類似度の計算に単語のアライメントを考慮したモデルが割と効果があるようで、それをテキスト平易化のコーパス構築に適用してみたら、かなりいい結果になった、という話。特にテキスト平易化だと平易になった文が元の文と比較して長さが(しばしば極端に)短くなっていたりするようだが、こういうのは既存の文類似度だとうまく扱えない、というわけである。統計的機械翻訳でテキスト平易化してみると、結構納得の結果になる(というか、これまでの人たちは、こんなコーパスでよく統計的機械翻訳の手法を使ってテキスト平易化していたなぁ、と言うべきか?)。

個人的にはテキスト平易化をフレーズベースの統計的機械翻訳でやるのはあまり適切ではないと思っているのだが、結果を見ていると、結局どの部分をどのように平易化するか、という候補を(文脈はどうでもいいので)知っているかどうかが重要で、候補に入れさえできればあとは言語モデルで適切な候補が選択できる(precision ベースの評価では、高い性能が得られる)、というようなタスク(英語の文法誤り訂正もほぼ同じ傾向)のようである。気になるのは評価で、文法誤り訂正もテキスト平易化もまだ決定版の評価尺度があるわけではなく、このような手法で高いスコアが得られても、本当にそれが意味のある結果なのかどうかは疑ってかかったほうがいい。ものすごくよくなっていれば、たぶん意味があるのだろうけど、少しよくなっているくらいだと、実質的には意味のない違いである可能性がある(今回の研究では、相当よくなっているので、実質的な差があると思うけど)。

今回の NL 研はおもしろい発表が多かった。次回は9月の NL 研@阪大だが、どうなるかなぁ。