基礎中の基礎ほどあえて書かれない

喉が痛くて午前4時に目が覚めて、なぜか汗が止まらない、と思って服を着替えて熱を測ると39.3度でびっくりする。ロキソニンを飲んで、痛みが引くまで横になっていて、午前6時には38度まで、午前7時には37度まで下がったが、しんどいことに変わりはない。今日も大学院の公開期末評価で、社会人博士の人たちの発表なので、休むわけにはいかないし……。

昨日は山口研・高間研の合同公開期末評価(人工知能分野)だったのに対し、今日は石川研・片山研の合同公開期末評価(データマイニング分野)。データマイニングはともかく、データベースの内容だとほとんど評価不能(一応それぞれの国際会議の名前や位置付けは分かるし、説明内容に基づく妥当性や正確性は判断できるが、提案手法の新規性や重要性はほぼ分からない)なのだが、どうなんだろう、これ。まあ、回路設計やテストと比較すると、データベースはまだ分かる方だが……。

昼休みは昨日の面談の続き。大学院入試に合格したけど研究室の定員に漏れてしまった場合、うちの研究室以外に行きたくない人は最終的には合格を辞退することになるのだが、如何ともし難いので、辞退する意向を確認する(入学確約書を出さない、ということになる)。一応こうなる可能性は事前に考慮していて、大学院入試より前に、大学院でうちの研究室で受け入れられない場合でも、試験に合格していれば、言語処理学会年次大会までは言語処理の研究をしてよい(しなくてもよいが、言語処理の研究をするなら研究室としてサポートする)、と伝えていたのである。

驚かれるかもしれないが、うちの研究室以外だと、M2/M1 で機械学習を用いた研究をしている学生でも、train, dev, test にデータを分けて実験する、という概念自体を知らない学生も珍しくない(というか大半がそうであり、特に研究に熱心でないから知らないというわけでもなく、国際会議で発表経験のあるような学生でも知らない)ので、1年間でも自然言語処理の基礎を学ぶというのは意味があると思っている(前半は基礎勉強、後半は論文を書いて OJT みたいな勉強)。まあ、実験設定に関しては情報通信システムコースのカリキュラムの問題で、「パターン認識機械学習」という授業に自分が入り、上記のような実験の仕方の基礎中の基礎(具体的には「言語処理のための機械学習入門」第6章の「実験の仕方など」)を教えるようになったのが去年の B3 からで、今年の M1 や M2 はそもそも聞いていないから、他の授業で習ったり、研究室の勉強会等で聞かなければ、知る機会がないのだろう。来年度に入学する学生からは、カリキュラムが変わるのでこの問題はないと思うが……。

そういえば、授業を受けた学生の一人から、「あの話を聞くことができてよかった」と言ってもらったことがあり、さすがにこれが基本すぎてどの研究室でも学ぶだろうから(知らないで実験しても、まともな国際会議の査読は通らないだろうし)要らないかも?と思うような事項で入れるかどうか迷ったのだが、話すべきだなと再確認した。この内容、すでに知っている人には当たり前過ぎて、むしろこれはわざわざ授業や勉強会で取り上げるべき内容ではないと思われそうだが、取り上げないと読まない人も多いので、自分の研究室の勉強会でもやったりやらなかったりしていたが、今年からは必ずやってもらうことにしている。(授業では、章の順番を変えて、第6章を最初に話すようにしている。)

午後は公開期末評価の続き。上記のような実験設定のイロハだけでなく、データ作成(アノテーション)のイロハについても学部3年生までの授業で教えた方がいいんじゃないかなぁ、と思ったりした。うちの大学では、機械学習の理論に激しくコミットするような学生は恐らくほとんどいないと思われるが、機械学習を使って色々な現実問題を解決しようとする学生は多いし、今後どんどん増えると予想されるので、その場合は新しい手法を無闇に追う(原理をほとんど理解していないのにとりあえず適用しようとする)よりは、地道にタスクを設計したりデータを貯めたりする方が明らかに意味があるだろう。研究室に来た学生には教えているのだが、どうも他の研究室ではデータの作り方についてちゃんと教えていないようで、せっかくおもしろいタスクだったり有意義なテーマだったりするのに、微妙なデータになってしまったりしている気がする。

夕方は身体を引きずりながら早退して病院に行く。39度以上の熱が出るのは何かに感染している可能性が高く、プールに行ったならアデノウイルスか溶連菌でしょうか、ということで溶連菌の検査をしてもらったが、溶連菌の判定は白で、とりあえず炎症止めと痛み止めをもらって帰る。熱は37度前後なので、平熱35.8度の自分からすると微熱なのだが、今週で回復するといいのだけど……