ソーシャルブックマークの研究用データ

クローリングしてる暇があるなら…論文書いたら?ということで、livedoor からソーシャルブックマークの(追試可能な)研究用データが入手できるらしい。ウェブサイエンスの抱える「再現性」の問題の話も前言及したが、実際の動きとして上がってくるのはすばらしい。

それに関連しているが、livedoor ラボ「EDGE」開発日誌というブログもそれなりに更新されているようで、興味深い(今回のデータリリースについても書かれている)。他にもたとえばレコメンデーションエンジン「Cicindela」をオープンソースにて配布開始しましたとか……。

ソーシャルブックマークのタグのデータは割と使えるらしいという話なので、これでこういう分野の研究が発展するといいんだけど、はてさて。こちらの記事でも

PFIみたいな、これまでソフトウェアライセンスのビジネスがメインでやってきた会社だと、いくらいろいろなアルゴリズムを作っても、最後にデータの壁という問題にぶち当たります。Webのデータであればクローリングすればよいのですが、閉じたデータにも、価値の高いものがたくさんあります。たとえば、購買履歴のデータなどもそうですし。データがあれば研究が進むのに、データがないから研究が進まない、ということもよくあります。アメリカでレコメンデーションの研究がものすごい近年進んできているのも、Netflixが商品へのレーティングのデータを無償で公開しているからです。独自サービスをやるという手もありますけど、なかなかいろんな種類のサービスを全部自分たちでやるのは現実的ではないです。ここらへんは、がんばって信頼関係を築いて、一緒にデータの分析を行えるようなスキームを組んでいくしかないと思っています。

ということで、やはり信頼関係を築いていくのが回り道のようで最短経路なのではないかと思う。

cf. はてなブックマークの関連エントリー機能