実験の再現性と科学の信頼性の問題

マイミク arg さんの日記よりウェブサイエンスの抱える「再現性」の問題という記事を知る。

日本では法律の不備により勝手にデータをアーカイブして公開してはいけないとかいう問題があることはよく知られている(から検索エンジン企業は海外にデータを置いていたりする)ので、たぶんそういう問題ではなく、全世界的にどうしたらいいか、という問題提起なんだろうという前提で。

でも「ウェブサイエンス」なんて言うけどこの分野はやっぱり工学だし、サイエンス(的研究)に対して敬意はみんな持っていると思うが、全部がサイエンスだというのはちょっと(というかかなり)違和感がある。なにが科学かというのは科学の「線引き問題」として知られていて、いろいろ議論もあるところなのだが、引っかかるのは以下の部分。

科学における重要な概念として、「再現性」というものがあります。再現性とは、ある研究で示された実験結果が再現できることを指します。科学の最大の目的は普遍的な法則性の発見であるため、すべての研究成果に再現性があることを理想としています。

研究に再現性を持たせるには、次の2点が重要です。

  1. 実験対象が再現可能(他人が同じものを用意できるか)
  2. 実験の手順が明かされていること

前者は研究そのものの問題であり、後者は研究論文の書き方など成果の伝え方の問題です。いずれにしても、研究者は自分の研究を正当にするために、この2点に配慮する必要があります。

ところが、現状のウェブサイエンスの置かれた状況では、前者の条件を満たすことが難しいのです。

(慎重に書いているので問題はないのだが)そこまで再現性必要なのかな、というのが自分の感想。結局大規模なデータを持っているところ(たとえば Google とか Yahoo! とか Microsoft とか)しか実験できないというのは大学側の人は割と不満に思っていることだと思うが、結局物理だってスーパーカミオカンデなど高額な計測器を使った研究は実験費がかかるので、他の機関が同じものを用意できるかというと(理論的にはできても)現実的にはできないし、追試ですら費用がかかるので基本的にはできない。(これはすばる望遠鏡なんかでも同じ話)

Web に関しても同じ議論で、理論的には自分で全部クロールできていればいい話(つまりそういうレベルでの再現性はある)なのだが、現実的にはそれができない。実験設備(ウェブサイエンスであればデータストレージの運用とか)が大規模になればなるほど、じゃあそれのコストはどこが負担するの、という問題になる。基礎研究であれば国がお金を出すしかないが、応用研究だったらビジネスになるかぎり企業がお金を出して運用してくれるんじゃないの、と思う。

まあ、それも軍拡競争と同じで各社がそれぞれ他社に負けないようにコストをかけてデータをクロールしまくるのは不毛である、とみんなが気がついたときに「じゃあ休戦しましょうか」ということになる(現実的には難しい)のだが、現状そうなっていないということはまだそういう時期ではないのではない(つまりそこに各企業がお金をかけても採算がある)かな。(さすがに国がそこに出てきて「民業圧迫」と言われることはないと思うが、データクロール企業が出現したらそう言われかねない)

歴史科学なんかも(歴史は二度と繰り返さないので)当然再現性はないのだが科学として一応成り立っているし、結局「こういう結論を言うためにはどういう条件が必要か」というのが明示されていればいいんじゃないか? と思うのであった。(極端に言うと)データがアカデミア向けに公開されていないから研究として認められない、となってしまうと企業から研究発表しにくくなるし、それのほうが研究コミュニティとしては損失だと思うけど……。

企業側も研究的な成果を活用したりするのである程度アカデミアに貢献したいとは思っているだろうが、簡単にできることとできないことがあって、簡単にできないことに関しては応分の負担が必要だろう、そうでないと先日書いたようにクレクレ君にしかならないんじゃないかな。