BERT より頻度ベースのほうがよい

なぜか2時に目が覚めたので、国際会議の原稿2本にコメントを入れる(合計2時間)。こういうふうに夜に仕事をすると、昼に眠くなるというのとのトレードオフがあるので、最近は避けているのだが、締め切り直前だと(あと昼間に授業があると)仕方ない。

今日の大学院の集中授業(4日連続3日目)は @moguranosenshi くんの深層学習による自然言語処理。去年お願いしていた @smly くんが転職してちょっと厳しいので、ということで、急遽お願いしたのである。座学部分は自分も知らない話が色々あって、勉強になった。

昼休みには推薦状を頼まれていた学部3年生が推薦状を取りにきたついでに、前期の(オンライン)授業がどうだったかとか、後期の授業がどうだとかいう話をしたりなんだり。やっぱり少しでも話すと違うなと思うのだが(教員は学生と話したがるのだとは思うが)、こういう状況では誰かと会って話すのもなかなか難しい。あと、学部2年生〜3年生にそれぞれ推薦状を頼まれたのだが、研究室配属前に推薦状を取得するのは難しい気がする。まあ、そういうときに頼めるように「担任」という制度があり、学部1年で入学した時点での学科幹事が卒業までそういうのを描いてくれることになっているのだが、編入生にはいないし……。

午後は Google Colab を用いた演習。昨日も Google Colab を使ったのでそこで詰まる人はいなかったようだが、GPU を使った実験をしようとしていた人は少し詰まった人もいるようである。Movie Review の評価極性分類をみんなでやっていたようだが、BERT みたいな深層学習の手法を使うより、tf.idf や bag-of-words みたいな頻度ベースの手法の方が性能が高かったりしたようで、おもしろかった。そういえば、以前 NAIST のスプリングセミナーで英語の前置詞誤り訂正のタスクをやってもらったところ、文系出身のグループが単純な頻度で訂正する手法を出して、それが一番精度が高かったのを思い出した。現実はシンプルな手法がいいこともある。

合間の時間で論文誌の査読のやりとりをしたり、国際会議の論文にコメントを入れたり、10月からの新入生のためのアカウントを作ったり。10月からは研究生が2人増え、インターンシップ研修生も2人来るのである。インターンシップ研修生というのは最近始まった制度で、研究室に出入りして研究する学生になんらかの身分を与えるというもので、学部で設けられている制度で、特に費用がかからないのは利点であるが、全学での制度ではない。うちの研究室では、夏季入試で合格してうちに来る予定の学部生にインターンシップ研修生として研究の進捗報告に参加してもらっている(ただし、既卒生の場合は研究生として来てもらい、この場合は半年分の授業料がかかる)。