大学の中に閉じないインパクト

色々と仕事が片付いていないので、朝5時に起きて2時間ほど査読。これで7月の査読は〆切前に全部終えることができた。

午前中は論文紹介で、以下の論文を紹介してもらう。スライド

  • Eric Malmi, Sebastian Krause, Sascha Rothe, Daniil Mirylenka, Aliaksei Severyn. Encode, Tag, Realize: High-Precision Text Editing. EMNLP-IJCNLP 2019.

これは自己回帰モデルで系列変換タスクを行う研究で、seq2seq ではなく編集系列を出すことで系列変換を行う手法である。特に入力と出力がほぼ同じであるタスク向けに編集操作を定義しているところが特徴で、そこまでデータがない状況でも精度が出て、かつ高速に推論できるという利点がある。挿入および置換に当たる操作をするとき、トークンの n-gram を挿入するようにパターンを抽出していて、個々のトークンそのものを使わないのはなんでだろうか?と最初は疑問に思ったが、どうも普通の seq2seq モデルだとデコーダ側が言語モデルのように振る舞ってくれるのに対し、編集系列にしてしまうとデコーダ側で言語モデル相当の情報を保持できないので、ローカルな文脈は(高頻度の)フレーズとして抽出する、という気持ちかなと思った。

さらに考えてみると、十分データがあれば普通に seq2seq で言語モデル的な情報をデコーダに学習させたほうがよいが、十分データがない場合は大規模データで学習した BERT にエンコーダを任せて、デコーダで言語モデル相当の学習をするのを諦める、という戦略なのだろう。また、これはそもそも入力側が十分言語的に流暢な文になっていて、BERT のようなエンコーダでエンコードすることで効果的にエンコードできる、というのも関係しているのではなかろうか。そう考えると、このような手法になっているのはなるほどという気もする。ただこのやり方だとかなりドメインに依存しそうな気がする。個人的には聞いていて(フレーズベース)統計的機械翻訳を彷彿とさせるな、と思った。ちなみに LaserTagger という名前だが、Facebook の LASER とは全然関係ないようだ(acronym でもないのに、なぜ名前が被るのだろうか……)。

午後は全体ゼミ(研究会)で B4 の NLP 若手の会シンポジウム(YANS)に向けた進捗報告を聞く。自分が聞くのは3週間おきなので、結構話し合うべき内容がある。まだ行き着く先が分かっていない状態で議論するのは楽しい。

しかし研究は初期の段階でポテンシャルが結構決まってしまうので、ここでちゃんと奥行きを確認しておいたほうがよいと思う。「こんなもんだろう」と妥協すると、結局そのあとワークショップ(ACL, NAACL の student research workshop)には通っても、(long はおろか、short でも)本会議に通るようなテーマにはならないし、そろそろうちの研究室もちゃんと本会議で通していきたいのである。1年目で成功体験をつけて2-3年目でしっかり long を書いてもらう、というようにしたいのだが、student research workshop で発表しても、なかなか本会議に辿りつかないという課題がある。

あと、やはり最近は自分の趣味が分かってきて、言語に関する洞察が得られるような内容でないと、あまりおもしろいと思わないことに気がついた。思い返すと松本先生も確かにそうで、エンジニアリング的にだけ意味がある(言語的にはあまり意味がない)研究には、かなり辛口であった。自分はそこまでではない(エンジニアリング的に意味があるなら、それは意味のある仕事)と思っていたのだが、ここでどういう立ち位置かで研究的には意味があるのだなと今更ながら感じたりする。

ちなみに最近「新 企業の研究者を目指す皆さんへ」を読んで、世の中にインパクトを与える仕事をする(Research that matters.)というのが説明されていて、とても感銘を受ける(個々の話はどこかで読んで知っているような話が半分くらいだが、なるほどと思う部分も多い)。研究者として、論文を書くのが一番典型的なインパクトを与える方法だが、例えば Linux のような OS を開発して世界中で使ってもらうのもインパクトを与える方法であり、論文を書くだけが全てではない、と。最初に取り組んだ機械翻訳の研究では、論文はそこそこ書けたが実際はあまり意味がなかった(その後に取り組んだ情報検索の話は IBM のテキストマイニングにつながっているそうで、自然言語処理が全て実を結ばなかったという訳ではないが)、という話も正直に書かれていて、そうだよなあと思ったりする。あと、研究成果を発表して、これはどうやって実現するのか、と聞かれるより、これはいくらで買えるのか、と聞かれる方が成功した証、という話も(元々は CMU の金出先生の言葉だが)なるほどと思う。

いい本だと聞いていて未読だったのだが、確かにとてもよい本なので、皆さん未読の方はぜひ読んでみては。上記のようなエピソードだけでなく、具体的に研究のアイデアをどのように形にしていくかや、論文の書き方も詳細に書かれていて、大変参考になった(研究を初めて15年経っている自分が読んでも、目から鱗の話がある)。旧版との違いは分からないが、PFN の話もしょっちゅう出てくるので、かなり更新されているのではないかと思う。

新 企業の研究者をめざす皆さんへ

新 企業の研究者をめざす皆さんへ

  • 作者:丸山 宏
  • 発売日: 2019/12/21
  • メディア: Kindle版