超大規模なウェブデータを使った研究をするための方法

ちょっと仕事を早めに抜けさせてもらって企業見学。先日の Key-Value Store 勉強会で名刺を交換しただけなのに、非常に丁寧に応対してくださって大変ありがたい。

うーむ、日本で超大規模な Web のデータを使って(自由に論文が書けるという意味での)研究ができるところ、自分は一つくらいかなぁと思っていた(PFIを入れると2つ)のだが、ここでもできるのか……パラダイス的な感じで衝撃を受けた。中途採用に応募するときはこういうふうにしたほうがいいですよ、と教えてくれたり、ぶっちゃけた話も参考になりすぎる(笑)

超大規模(ここで言う超大規模というのは日本で考えてシェアトップ3に入るような規模の話)データでなければもっといろいろやっているところはあるだろうが、シェアが数%に満たなかったり、研究としてはもちろん意義はあるだろうが、サービスのインパクトとしては……みたいなのは思うことがある。

リンク解析の研究していると実データが喉から手が出るほどほしくなるんだよ、と前 takahi-i さんが(真顔で)言っていたが、あるところにはあるものだなと思った。データマイニング・リンク解析的には自分は始めてからまだ2年程度なので、大学院生活ほぼ全部これに費やした takahi-i さんの話は(今思えば、だが……)非常に参考になる。毎回研究会で takahi-i さんが「ノイマンカーネルが……」とか「ディフュージョンカーネルが……」とか言う度にポカーンとしていた自分が懐かしい。

今日お邪魔させてもらったところの研究グループの人たちはみんな楽しそうだったなぁ。正則化ラプラシアンカーネルの話なんか、自分も1年以上前はちんぷんかんぷんだったので、大丈夫かなと思いつつ切り出してみたのだが、みなさんそれなりに手応え感があり、逆にこちらがびっくり。開発寄りの研究をするんだとしたら、理想的にはこういうところで働きたいなと思う。

自分は必ずしも100%研究ばかりしたいという感じではないのだが、大学に残るとか戻ってくるとかいうことを考えると、やはり論文を継続的に出し続けるのが重要なんだろうな、というのはこの数ヶ月就職活動をしてみて非常に強く思う。そして、仕事として論文を書いてもいい、と言ってくれるところは企業では非常に少ないし、自分の希望にぴったりはまるところもそうそうない(のでどこかを妥協する必要がある)。論文読むのが好きな人と論文書くのが好きな人といるとすると、前者なら行けるところはたくさんあるだろうが、後者だと好きなことを仕事にするのは厳しいなぁ、とつくづく思うのであった(独身ならいざ知らず、やっぱり家に帰って家族がいると思うと仕事の時間で研究は完結したい)。そうすると、仕事として論文書いてもいいですよ、と言ってくれるところは本当に貴重で、なにかの縁があったら食いついて放さないくらいの意気込みでアンテナ伸ばしておくのは重要だと思った。