B3 で BERT を使うインターン

今日も在宅勤務。今月はいつもと出勤する曜日がずれているのでちょっと勝手が違う。

朝は共同研究のミーティング。いつものことながら、実装するのがどれくらい難しいのかの勘どころが、自分ではよく分からなくなって来ているのが悩ましい。実は難しいことを「これ簡単だよね」とは言いたくないのであるが、実は簡単なことでもなぜか詰まっているのかもしれないので、後者についてはなんとかフォローしたいのである(どちらも、時間を使って丁寧に確認することで解消できると思うので)。

残りの午前中は論文の査読。最近は査読を依頼されると初手はお断りのメールなのだが、自分たちも投稿している論文誌や国際会議だと、投稿した分くらいは査読しないとな、と思って引き受けているのである。なかなか時間を取るのが難しいのだが、編集委員の立場からすると、投稿する時間があるなら査読もしてほしい、というのは当然だろうし、投稿だけするのはフリーライダーだと思うので……。

昼からは研究会(研究室の全体ゼミ)。言語処理学会年次大会の目次発表。今年度はうちからは10件の発表で、例年より少し少ないが2桁になる模様。対面じゃないだろうから、もっと激減するかと思ったが、そういうわけでもないようだ。

また、その後 B3 の情報科学ゼミナールの中間発表。今年から始まった授業なので、何をやってもらうのかも特に決まっていなかったのだが、学生と相談して Kaggle の Google Quest Q/A Labeling をやることになり、それぞれの学生が内容があまり被らないように調整して色々試してくれているようである。試している内容も、前処理を頑張る人、後処理を頑張る人、BERT/RoBERTa 等の事前学習済みモデルを頑張る人、など色々いておもしろい。B3 でも簡単に BERT を使って実験できる時代なのかー、と思ったりする。結局はデータを見て分析してね、という話をするわけだが……。

結局のところ、毎年このような形で4-5人の B3 が仮配属(研究室インターンシップ)されていて、研究をする(= 論文を書いて言語処理学会年次大会に投稿する)のと、研究ではなく今回の演習以外にも輪読会みたいな勉強をするのと、大体交互くらいにやってきている。これはランダムに仮配属されてうちの研究室に来た学生だと、ほとんど全て研究室に残らない(毎年3-5人の研究室インターンシップ生がいたが、2年に1人くらいしかうちの研究室に来ない)ので、研究室としてはそこまで研究をするインセンティブがなかったからである(学部の底上げをしようと思って持ち出しでやっていた)。

ただ、今年から B3 は希望順にインターンシップに来ることになったので、もしかするとあまり動かないのかもしれないので、それなら研究的なことをやるインセンティブが多少増える。とはいえ、研究室に来る学生がマジョリティになると、今度はやる内容を考えるのに苦労することになる。研究室に来るなら1人1本論文が書けるとよいが、もしかすると他研究室に行く学生にそこまでのバリエーションのあるネタを提供するのは研究室としては難しいので、よほど意欲のある学生が来ない限り、1グループ1テーマになりそう。