システムを評価するにもコツがある

午後は統計数理研究所に行く用事があるので進捗報告の時間と論文紹介の時間を入れ替えたのだが、そのせいで進捗報告に参加できない人が続出し、予定は変えてはいけないと思った次第……。

統数研では共同研究の打ち合わせ。足かけ2年くらいやっているが、そろそろ着地点が見えてきた。色々学ぶことが多いのでよかったが、この2年間で自分の忙しさも変化したので、来年度以降は今までのようなやり方は難しいかな。なんとか外部の人と協力できるといいのだけど。

システム開発の研究はあまり研究室ではしてこなかったし、NAIST 時代もしていなかったのだが、その理由の一つとして、評価が難しい、ということがある。評価が難しいのは例えば言語生成(翻訳や要約、対話の質)もそうなのだが、システムの評価は比較手法をどうするのが適切なのか、どのような実験をすればいいかも難しい(手法の評価の順番をランダムにするとか、ラテン方格のように実験しなければならない設定数を減らす定石の実験計画法はあるが)し、評価者のリクルートも大変、という問題もある(研究室の中で使ってもらうのは簡単だが、研究室のメンバーでは提案手法のアルゴリズムを知っていたりするし、提案手法が何か分かったらそちらに有利な判定をするかもしれないので、不適切)。

「作りました」というだけでは開発としては OK でも研究にはならないので、少しずつシステム開発の研究のやり方も模索したほうがいいのかな、と思ったりした。(とりあえず、現在は倫理委員会メンバーなので、こういうことについて考えるいい機会)