オープンにすれば後からついてくる

午前中は以下の論文を紹介してもらう。(スライド

  • Tao Shen, Tianyi Zhou, Guodong Long, Jing Jiang, Chengqi Zhang. Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Modeling. ICLR 2018.

CNN は速いが長距離の依存関係が見られない、RNN は長距離の依存関係が見られるが遅い、Self-attention network(Google の Transformer モデル)は長距離の依存関係も見られて速いがメモリを大量に使う、ということで、Self-attention network をベースに階層的にブロック化してアテンションを張って省メモリにした、という話。ブロックの中の情報はローカルなアテンションで、ブロックをまたぐとグローバルなアテンションで考慮する。

メモリ使用量が減るのはテクニック的にそりゃそうだな、という手法で、特に驚きはないが、ブロックの大きさは動的に決めるのではなく決めうちで、フレーズの途中でぶった切れてしまったりしてもグローバルなアテンションでなんとかなる、というのはちょっと意外。精度的には大丈夫、と言われても、言語的には気持ち悪く(2種類のネットワークに情報が分断されて、分析しにくいような?)、あまりやりたくない感じ。

お昼からは [twitter:@so1owingpixy] くん(うちの研究室1期生で、2016年3月に修士卒)に学部3年生向けのトークをお願いしていたのだが、自分は南大沢で委員会のため泣く泣く移動。少しだけトークの内容を見せてもらったが、学部生に向けたいいメッセージが詰まっている感じだった。論文紹介スライド、デモやソースコード、書いた論文リストを公開しておくといい(就職活動で役立つばかりでなく、就職してからの転職活動でも役に立つ)、という話、全くその通りで、公開して損はないので本当にうちの研究室の人はバンバン公開するといいと思っている。これくらい言っても、半分以上の人は公開しないのだけど、研究開発に関する情報をオープンにしている人は、就職活動もスムーズなのに対し、あまり公開しない人は、スムーズな人とそうでない人と両方いるが……。

そういえば、企業の人を呼んで話してもらうのも、うちのコースの場合、卒業生を呼ぶと学生が真剣に聞くらしいのだが、その心がよく分からない。首都大(都立大)出身だと身近に感じるだろうということは想像できるが、東大や東工大を出た人の話だと、自分たちとは違う、他人事だと思うのだろうか? 社風というか校風の違いはあるのだが、特に大きな違いはあるようには感じないけどなぁ……。

最近東大の学生たちと一緒に(大学教員としてではなく)仕事をしているのだが、良くも悪くも昔を思い出す。自分たちが学生だったころ、ktanaka 先生や [twitter:@kojiando] 先生たちが自分たちを見ていたのはこんな感じだったのかなぁ(やってはいけないことでなければ、おかしな方向に行ってそうでも、好き勝手やらせてくれていて、時々おもしろい話を教えてくれていた)、と思ったり。こういう環境だと、ほっといても(教員が特に面倒を見なくても)確率的には学生単体でそれなりの論文が出てくるのだろうなぁ。首都大ではそういう感じではないが、逆に研究室としてグループで重点課題を決めて研究するスタイルには向いている(たぶん、仕事で研究開発するにはこちらのタイプの人の方が重宝される)ので、自分は大学教員的には今の環境でよかった、とも思う。