Yahoo! Tech Blog で新検索プラットフォーム「ABYSS」の記事が出ていたので、Yahoo! Search BOSSの紹介。(日本語の記事は TechCrunch のYahoo、BOSSを発表―画期的な検索サービスのオープン化イニシアチブが参考になる)
Yahoo! BOSS は、平たく言えば検索エンジンのインデックスに直接開発者がアクセスできるようになっている、という代物。普通検索エンジンを外から使う場合は、ウェブ API と呼ばれる制限された特殊な方法でアクセスするか、スクレイピングと呼ばれる普通にアクセスするけど必要な箇所だけ抜き出す方法が使われる(こちらはサーバやネットワークに負荷をかけるので嫌がられる)のだが、BOSS はウェブ API 経由でアクセスするにもかかわらず、かなりの自由度があるのが特徴。(たとえば1日あたりの検索回数は制限ないし、サジェスチョンの候補も取得できる)
これ自体は先日 Yahoo! Labs の Patrick Pantel さんにいろいろ聞いたのだが、「こういうことをしたいのだが」と言ったら「アンカーテキスト(あるページにリンクを貼るとき、クリックできるようになっている部分の文字列)を使うといいと思う」と言われて「いや、アンカーテキストは検索エンジン作っている会社じゃないと分からないですよね〜」と言ったら「Yahoo! Search BOSS は Yahoo! のインデックスをほとんど公開しているから、もしかしたらあるかも」と教えてもらったのである。
で、調べてみたら結局アンカーテキストは取得できないようだ。残念。アンカーテキストはウェブ全体をダウンロード(クロール)すれば手元で計算できるので、大学でもやりようによっては取得できるのだが、どのアドレスをクリックしたかというクリックスルーのデータとか、どんな単語で検索したかという検索クエリのデータは、大学では使いようがないので、共同研究したりするしかない(共同研究するのも一苦労なのだが)。
こういう制限があると、大学でこの分野の研究しようと思うと、企業と同じ土俵で勝負しようと思っても無駄だと思うし、アイデア勝負でがんばるしかないのかなーと思ったりする。