研究にも流行り廃りは存在する

昨日は南都銀行に行ったのだが、キャッシュカードが使えなくて難儀した。生体認証を以前設定しており、よりセキュアにはなったのだが、生体認証機能がないATMで使用できなくなってすこぶる使い勝手が悪くなったので、クレジットカード更新のとき、生体認証を再登録せずに使っていたところ、とうとう再登録しないとだめになったようだ。そして、再登録には銀行印が必要である、と。面倒くさい……。南都銀行と紐づいたクレジットカードも来月で解約するので、これが済んだら口座解約したい。

昼から機械翻訳勉強会。論文紹介は中村研と松本研で毎週交代でやることになったのだが、松本研側の参加者が少ないような……。最後に [twitter:@neubig] さんがおもしろいデモを見せてくれる。すばらしい。進捗は少しでも (松本研基準だとこれは「少し」ではないが……)、小まめにやっていることを共有 (議論) できるというのは、理想的な感じである。

学内実習の希望者11人に希望テーマを3つまで挙げてもらったのだが、なんとも悩ましい結果に。希望が相当偏っているので、半分以上の人を第一希望のテーマに割り当てることができないのだが、人生そういうことはよくあるので、仕方ないかなぁ。Kevinさんと明日話そう。

夕方はソーシャルメディア解析勉強会。まず ryosuke-m くんが進捗報告。前半はこれまでの研究のおさらいで M1向けであったが、後半は言語処理学会年次大会でもらったコメントとそれへの応答、そして現在取り組んでいるアノテーションの話。結局アノテーションをどうするかがウェブデータを使うとき問題になることなので、避けて通れないわけだが、今の修士の人たちはアノテーションすることを厭わない方々で (というか実際自分たちでやってきているので、大変なことは分かっている)、すごいなぁと思う。

後半は takeshi-na さんによる論文紹介で、

  • John D. Burger and John Henderson and George Kim and Guido Zarrella. Discriminating Gender on Twittter. EMNLP 2011.

を紹介してくださる。こういう論文が EMNLP (機械学習や統計的アプローチを使った自然言語処理の最難関会議のひとつ) に通っていたことを知らなかったので、紹介していただいてありがたい。ただ、内容は正直疑問があり、よくこれが査読を通ったなと……。

たとえば松本先生も突っ込んでいたが、18万アカウントあるうち訓練に14万、チューニングに2万、テストに2万使うとして、ラベルなしデータを使いたいからと self training をしているのだが、訓練データを半分にして残り半分で self training していて、こんなのうまく行くわけがない (そもそもラベルつきデータが少ないとき self training したくなるのに、14万アカウントもデータがあるならそんなことする必要がないし、ラベルなしデータを自動でラベルづけして、信頼度の高いものから入れるわけでもなく、全部ラベルありデータ扱いで混ぜたら悪くなって当然)。

ツイートの本文だけで性別判定するより、プロフィールのテキスト情報を使ったほうが精度がよい、ということを示したところが評価されたのかな。それにしても、2011年でそんなことが評価されるというのも驚きだが……。