研究のソースコードを公開することに対するインセンティブ

午前中は共同研究のミーティング。毎回進捗があってすばらしい。自分は ryu-i さんにものすごく助けてもらったのに、あまりヘルプにならず、恥じ入るばかり……。

午後は勉強会にて論文紹介。

  • Zornitsa Kozareva and Eduard Hovy. Not All Seeds Are Equal: Measuring the Quality of Text Mining Seeds. In Proc. NAACL 2010.

という論文を紹介してみた。ブートストラップ法という手法は、少数の種となる事例(たとえば単語)を与えて大規模に知識を獲得する手法なのだが、種(シード)の善し悪しを議論した論文がこれまであまりなかったので、そこを研究してみました、という論文。

実験設定やアルゴリズムが実はいまいち現実離れしているので、実際ここで提案されている手法はシード選択には使い物にはならないとは思うのだが、このあたりのシード選択もまだやり残されたことがある。(彼らも「研究されていないので研究しました」と言う割にはちゃんとしたバックグラウンドのある手法でシードのよさを定量化できていないし、実際応用するにはハードルが高い)

こういう研究するための標準的なデータセットがあるとよいのだけど、実情自分で前処理・後処理しないと研究がスタートできないところがちょっと面倒。機械学習だと UCI 機械学習リポジトリのようなものがあるのだが、自然言語処理の場合なかなかないもので……。

来年東京で開催される CICLing という国際会議ではVerifiability, reproducibility, and working description policyと題してオープンソースアルゴリズムを書いたコードが公開されていることが論文採択の際にプラスになるというポリシーに今年から変えたそうだが、このようにちゃんとコードを出すというのは大事なことだと思う。企業の人など公開できない事情がある場合は別だが、それでもクローズドソースでなんとかならないものだろうか? ちなみにこの会議 double blind なのだが、ソースコードを出したら誰が書いたのかバレそうな気も……(いっそのこと KDD のように double blind の査読を止めるというのもありだと思うけど。)