内容に絞って議論できる会

午前中は1時間ほどメール処理をしてから論文紹介。今日からは新入生の論文紹介になる。どんな論文を紹介してもいいよ、と言ってはいるのだが、なんとなくここ数年に発表された論文を選んでいるようである。紹介してくれたのは以下の論文。スライド

  • Renfen Hu, Shen Li, Shichen Liang. Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological View. ACL 2019.

"An Ecological View" のところを置いておくとすると、この論文は通時的な意味の変遷を BERT を用いてする、というもので、やっている手法も古き良き Lesk アルゴリズムを現在やるとこんな感じ、みたいなアルゴリズムで、簡単ながら良さげに分析できるし、よい論文であった。最近、深層学習以前のアルゴリズムがどれくらい知られているのかと思うことがないわけではないのだが、知らなくてもいいのではと思うアルゴリズムがたくさんある反面、これはよいヒューリスティックスなのでもう一度リバイバルしてもいいのでは、と思うものもあるので、温故知新ができるといいような気もする。そして、そのように感じる自分はもう老人側に足を一歩踏み出していそうである。

自然言語処理では、深層学習以前と以後では、相互に翻訳不可能(incommensurable)であると感じている。どちらでも使われているデータは同じだ、と言えなくはないのだが、共通しているのは評価データ(とその使い方)のみで、学習データとその使い方が違いすぎていて、少なくとも以前の人は今のやり方が理解できないのではないかと思うし、今の人は以前のやり方が(背景を説明しない限りは)理解できないのではなかろうか。ただ、これにどういう問題があるのかよく分かっておらず、自然言語処理分野における深層学習の受容は殊の外早く進んだ印象があり(使っていなければほとんど国際会議に登場しなくなるので、ものすごい勢いで淘汰圧がかかる)、特に問題はないのかもしれない。

以前(研究室ができて最初の数年)は新入生向けの論文紹介は論文の精読をしてもらっていて、これは英語力的に文法がちゃんと分かっていない学生がいたので、どのように読むかということから見ないといけなかったためにそうしていたのだが、最近は英語を読むという段階で詰まる学生が全くいなくなったので、全体で精読するのはやめた(今は外部受験生だけでなく内部進学生の英語力も大幅に向上したので、むしろ英文読解教室みたいなのをやるのは失礼)。Microsoft Research にいたとき、論文読み会で全員が論文をなんとなく読んできている前提でディスカッションをする、というのに出たことがあり、これは英語力があればやりたいが、日本では無理だろうなと思っていたのが、今はできるようになっている気がする。まあ、今は読み書きできなくても Google 翻訳とか DeepL で翻訳して読み書きしているのかもしれないし、昔ほど研究するに当たっての英語力がクリティカルではなくなっているのかもしれない。

午後は研究会。今日は学部生の NLP 若手の会シンポジウム (YANS) に向けた進捗報告である。今年の YANS はオンライン(1日)開催らしいので、発表してもあまり交流が深まる感じではない気がするが、学外の人からのコメントがもらえるというのよいことなので、今年もやってもらうつもりである。大体はメンターの大学院生にしっかり見てもらっているので、自分のすることと言えば、その研究についてあまり知らない人という視点から、これはどうするの、これはどういう意味、という質問をするだけである(自分にはあまり詳細は知らされていないので、初めて聞く話もあるし、そうでない場合もあるが、改めて聞いて理解度を確認する意味)。大体この段階で、理解しているのか理解していないのか、あるいは理解していないことを理解しているのか、あるいは理解していないことを理解していないのか、ということが分かるのだが、今年はみんなちゃんと(理解していることと、まだ理解していないことの区別を含めて)理解しているようで、一安心。

夕方は学生から送られてきた研究計画書にコメントを入れる。自分自身は研究計画書を書くのはあまり気乗りがしない作業なのだが(まだやっていないことを書くのは気が引ける)、他の人の研究計画書を見ると、少しモチベーションが上がる。NAIST で助教になった直後や首都大に来た当初は研究計画書をよく書いていたが(その8-9割は不採択)、だんだん若手感がなくなってきてしまっているようである。こういうフレッシュな感覚を大切にしていきたい。