論文もみんなで読めば怖くない

朝5時からメール処理。朝4時から動ければいいのだが、4時に起きると昼間眠くなるので、5時が今のところベストかなぁ。6時だと1時間しか仕事できないし……。しかしせっかく割り込みの入らない朝起きてメール処理というのは非常に効率が悪いので、時間の使い方を改善したい。(ただしメールが溜まりまくっているのでいまは仕方ない)

今日は研究室で NAACL 2015 読み会である。NAACL というのは North American Chapter of the Association for Computational Linguistics のことで、ACL という自然言語処理の最大の国際会議の北米支部であり、北米(アメリカ、カナダ)は自然言語処理の研究者人口がもっとも多く、最先端を行っている地域なので、レベルも非常に高いACL、EMNLPに次ぐベスト3)。ちなみに北米支部だから北米の人しか参加しないか、というとそういうことはなく、投稿も世界中からあるし、参加者も世界中からある(査読も世界中の人がしている)。単に開催地が北米である、という以上の意味はない。

うちの研究室ではサーベイ奨励・促進のため、昨年度から自然言語処理のトップカンファレンスの論文読み会を開催している。去年は ACLアメリカ開催だったので NAACL はなく、ACL、EMNLP、COLING という3つの国際会議の論文読み会を開催した。今年は NAACL、ACL、EMNLP の3つになる予定である。(来年は ACL、NAACL、EMNLP、COLING の4つにするか、COLING を外すかは未定)

しかし今年は研究室の人数が多く(去年の10人に対し20人)、全員に紹介してもらうと1日では足りないので、M2/D の人はコメント担当に回ってもらい、B4/M1 の人だけ紹介してもらう。いろいろおもしろい研究があったのだが、B4・内部進学の M1・外部進学の M1 のそれぞれから1本ずつ紹介する。

手法はシンプルだが有効そうなのは

  • Severyn and Moschitti. On the Automatic Learning of Semantic Lexicons. NAACL 2015 (short).

で、極性(ポジティブ、ネガティブ)の付与された顔文字やハッシュタグを用いてツイートに自動的に極性を付与し、それをコーパスとして(つまり distant supervision の設定で)unigram と bigram を素性にした線形分類器を学習し、学習されたモデルの重みの絶対値の高い素性を極性の付与された語彙として獲得する、というもの。アイデアもやり方もシンプルで、卒論でも余裕でできそうな感じだが、顔文字とツイートを使って distant supervision したというところがうまいところ。

あと

  • Soricut and Och. Unsupervised Morphology Induction Using Word Embeddings. NAACL 2015 (long).

もアイデア一発で、word2vec を使って king - man + woman = queen ができるなら、dogs - dog + table = tables ができるでしょ、というお話で、このような語形変化の知識を教師なしに獲得する、という研究。言われてみれば確かにそうで、これも手法的に難しそうなところはなく、一本取られた、という感じ(ちなみにこれが今回の NAACL のベストペーパー)。日本語でやるとしたらちょっと難しい気もするが、意味の足し算引き算ができる、というのがこういうところで使えるのかぁ、というのは興味深い。

また、手法がどうというより、タスクがおもしろいのは以下。

  • Malmaud et al. What's Cookin'? Interpreting Cooking Videos using Text, Speech and Vision. NAACL 2015 (long).

料理の動画を検索できるようにしたい(例えば「落としぶたをする」でその場面だけ切り出して表示したい)、という設定で、YouTube の料理の動画のコメントやリンク先からレシピを抽出し、動画の自動音声認識とアライメントを取り、検索できるようにする、という話。第一著者は MIT の学生だが、Google のグループの発表(恐らくインターン中の仕事)で、実際こういうことがしたい、という動機があるのだろう。これまであまりマルチモーダルな研究は実用化されてこなかったが、いまやスマホで写真も動画も撮りまくれる時代だし、それを言語で検索したいというのは自然な流れで、そのうち当たり前の技術になりそうである。

発表全体で言うと、B4 が全員しっかり論文を読めていて、資料も万全というのがすばらしかった。これは [twitter:@moguranosenshi] くんが読解支援勉強会で B4 にスライドを使って論文紹介と進捗報告をさせているおかげかと思うが、博士後期課程の学生が1人いるだけでこんなにレベルアップするのか、とびっくりである。なんとなく、ドラクエポケモンWizardry のような RPG で、パーティに一人無茶苦茶強いメンバーを入れておき、中くらいの経験値をそこそこ持っている敵を倒してメンバーを一気にレベルアップさせる、みたいなのを思い出した(汗)

今年度は(来年度も)みんなにあちこち違う場所に武者修行に行ってもらって、研究室に戻ってきて外の空気を入れてもらいたいと思っているし、外に行くことでむしろ研究室(大学)の環境のよさも再発見できるかなと期待している。NAIST 時代、あちこち行ったが最終的には松本研が一番恵まれていると思ったし、大学とはそういう場所でありたいと考えている。