時々は素性工学してみたい

朝から必要に迫られて、昼過ぎまで数時間コーディング。ほとんどの環境は Python 3 になっているのだが、ときどき Python 2 のままになっているときがあったりする。

このデータ、数ヶ月に1回しか触らないので、毎回「どういうデータだっけ?」ということを確認しないといけなくて、かつ実験を一通り終えてスライドに数字を入れたあとに間違いに気がついて全部やり直しになったりすることも多く、つらい。今回は、人手でつけたラベルだと思って学習したら予測ラベルで学習していて、全部やり直しになったし……(そんなに学習データはなかったはずなので、当然なんだけど)。

今回は特徴量抽出までやってもらったデータをいただいて、そこから先の学習部分を分担しているのだが(それはそれでとても助かっているのだが)、やはりこういう設定で研究するのは難しく、どうしても開発案件的になってしまう。今回は元データもあるし、素性の名前も分かっているので、調べれば何が何かは分かるのだけど、自分で素性抽出部分をやらないと、何が何なのかほとんど勘が働かないのである(分類して結果は出せるけど、すぐモデルを更新して回す、みたいなサイクルが回せない、というのも大きい)。昨年度の経験から、こういう状態になる共同研究は今後受けないことにしたのだが、残念ながらこの共同研究は継続案件なので、共同研究期間が終わることを待つのみである。

今週末を乗り切れば、とりあえず一山超えるので、なんとか乗り切りたい(7/7まで毎週厳しいが)