最先端の実験は必然的に大規模化する

大規模テキストデータ(もう昨今 GB 単位はそんな大規模ではなく、TB 単位以上)を対象とした研究をしている自分が言うのもなんだが、そもそも自然言語処理の研究ってそんなに大規模化する必要はないし、データ量を増やしたからといってそんなに劇的に精度が変わったりするわけではない(むしろ扱いに独特なコツが必要なので、うかつに手は出さないほうがいい)、と思っているのだが、なんでみんな大規模化したがるのかなぁ、と不思議だった疑問に得心がいった。

もちろん増やしたデータ量に対し log スケールで改善する、というような微弱な改善効果はあるのだが、そんなことよりはアルゴリズムを変えたり、用いるデータの質を上げたり、もしくは使う素性を工夫したり、はたまた全部同じだけどパラメータだけチューニングしたりするほうが大幅に精度に影響したりするのは世の常である。

で、今晩見た爆問学問で、先週の情熱大陸と同じくノーベル賞を昨年受賞した益川さんが出ていたのだが、彼の言うには「素粒子物理学みたいに、最近のノーベル物理学賞は大規模にしないと受賞できません。最初のノーベル賞を受賞したのは誰か知っていますか。レントゲンです。レントゲンの実験なんて、机が一つあればできます。最初はそれくらいだったのに、人間の知識が増えるに従ってどんどん大きな設備でないと調べられない現象が研究の対象になり、最先端の実験は大規模化する一方です。こういうふうに、人間の『知りたい』という欲求が、実験を大規模化させる必然的な要因なのです」ということ(大意)で、なるほど、そうすると自然言語処理でも最初は小さなデータで少数のルールを書いていたりしていたのに、統計的手法や機械学習なんかが流行ってどんどん大規模化していくのは、必然的なことなのかもー、と腑に落ちた。

Google とか Yahoo! みたいな大企業でないと再現性がない(データの規模もそうだし、外に出せないデータを使っていたり)、と最近の一部の実験は批判されることがあるが、物理学とのアナロジーで考えてみると、加速器を使って素粒子物理学の実験をしたり、すばる望遠鏡を使って観測実験するのと、(原理上追試は可能だが現実的には不可能という意味で)同じかなぁ、と思ったり。

大規模と言ってもそれが当たり前になると大規模と言われなくなり、もっと大きくないと大規模にならないというのはなんとも終わりがない話なのだが、人間の扱える範囲を遙かに超えた量のデータから情報や知識を獲得できるというのは、なんか SF チックで(計算機がないと絶対できないことだし)楽しい。これどこまで行けるのか、見てみたいなぁ、と思うのであった。