パターン認識の人手最強伝説

午前中は機械学習の基礎勉強会の最終回。1冊全部通読できてよかった。

昼から研究室配属の説明会。誰がうちの研究室を希望してくれるかな?

連続して学部3年生のプロジェクト実習の最終発表会。学生たちが各自チームで半年間研究した成果を発表してくれた。トップバッターの女の子4人組チームがとてもプレゼンがうまく、出した数値も段違いによく、他のチームのほぼダブルスコアで、最優秀発表賞を受賞していた。ポスター発表を聞くと、ポスターにはアルゴリズムが前面に書かれていたが、質問してみたところアルゴリズムが問題なのではなく、驚くべき手法によってその精度が達成されていた。

タスクは顔画像認識で、人物の映る画像が与えられたとき、それが誰か当てるという課題。ただ、この実験は設定が特殊で、画像に手を加えてもいいことになっていた。そこで、彼女たちは数千枚の写真画像からなる訓練事例とテスト事例の両方で、まず顔の中心点を決め、斜めになっていたら回転させ、両目の間の距離が全ての画像で同じになるように拡大縮小し、輝度を調整して同じような色になるようにチューニングし、背景は除去して全部縦横が同じサイズのピクセルになるよう切り出してから(ここまで全て人手)、分類器にかけていたのである。deep learning も真っ青の特徴量抽出である。

彼女らのすごいところは、複数人でデータを丹念に前処理し、4人で手分けして前処理するとき、同じような前処理になるよう、仕様をお互いにチェックして、ずれていたら統一する、といったような(アノテーション?の)調整をしていたところである。ここまで人の手が入っていたら、全自動のシステムで勝つのは至難の技であろう(一つ付け加えるとすると、テストのクエリ画像には訓練事例にはない人物も入っているそうだが、それらは彼女らによって除去されたそうだ)。これはヤバい。

結局自然言語処理でもパターン認識でも、個々のアルゴリズムをいかに工夫するかよりデータの前処理を少し変える方がはるかにパフォーマンスを向上させる、というのはこの分野のあるある体験だと思うが、それを強烈な形で目の当たりにすることができて、感動した。すばらしい。あれだけ丹念にデータをいじることができるというのは、大変研究に向いていると思う。言語処理でも辞書やコーパス作成のような地道な仕事をされる方がいらっしゃるのだが、頭の回転の速さなどと無関係にこういう作業の適性は決まっていて、ほとんどの人はこういう作業に挫折するので、このような作業にも適性がある人たちは大変貴重なのである。

しかし夏前に彼女らのうち何人かは大学院への進学を希望していたと思うのだが、いまは全員就職希望になっているようだ。もしかして、この授業のデータの前処理で考えるところあったのかな……(他の理由だとは思うけど)。

教授会と発表会の時間が小一時間重なっていたのだが、いつも教授会は2時間くらいやっているから、間に合うだろうとたかをくくって遅れて向かったところ、今日はなぜか1時間で終了したらしく、行ったら終わっていた(汗)

夕方は学内の委員会の仕事とコース内の幹事のお仕事。議事録を作るだけで2時間ほどかかるのだが、WikiGoogle Docs に全員書き込めるようになっていて、適宜書きたい人が書いて、会議が終わると同時に議事録ができているとか、ならないだろうか……。そういうふうにしている企業もあるので、できなくはないと思うのだが、そもそもうちは教授会やコース会議にキーボードのついた何かを持ち込む雰囲気ではない(持ち込む人でせいぜい iPad)ので、厳しいだろうなぁ。

夜は OpenGM という factor graph を使えるツールのインストールと動作確認。cmake って使ったことがなく、最終的にはインストールできたが、いろいろはまる。時代は変わっているんだな〜。