Microsoft は Google の検索結果なんてコピーしていない

Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難という記事について、Microsoft が悪いことしたのか、という声がけっこうある。

(2011-02-07 訂正) IE の Bing ツールバーを入れただけで検索に関する行動データが送られていた、という点、ツールバーからの検索のときに行動データが送られていた、と誤解していたので、お詫びして訂正します。 @shuyo さんご指摘ありがとうございます。Search Engine Land の元記事も参照されるとよいです。日本語に翻訳される過程でいろいろ情報が落ちています。

パッと見ると Microsoft に恨みがある人は坊主憎けりゃ袈裟まで憎い、と言わんばかりに「Microsoft が悪いことしたのか」と思うのだろうが、恐らく話は簡単ではない。ちょっと引用。

マイクロソフトサーチエンジン Bing が Google の検索結果を不当に「コピー」しているとして、Google のエンジニアがマイクロソフトを非難しています。画像はGoogle側が Bing を「釣る」ために仕掛けた " The Bing Sting ", おとりページのもの。仕組みとしては、まず Google でも Bing でも検索結果がゼロかごく少ない、もともと存在しない言葉 (上の例では " mbzrxpgjys " ) を作りだし、その文字列でGoogle 検索したときだけ現れる偽の検索結果ページをセットアップします。続いてGoogle のエンジニアが自宅で Bing ツールバーのインストールされたインターネットエクスプローラを使用して問題の言葉をGoogle検索。「おとりページ」の最初のリンクをクリックするというもの。(強調引用者)
結果は画像のように、約2週間後には Bing検索でも Googleのおとりページとまったくおなじ結果が返っています。検索語がそもそも存在せずBing検索でも結果ゼロだったこと、またBingの返してきたリンクと検索語を関連づける情報は Googleが人工的に設置したおとりページにしか存在しないことから、マイクロソフトIEツールバーを通じて、ユーザーが Google 検索した結果を「カンニング」して bing にコピーしているというのが Google 側の主張です。設置された約100の罠のうち、Bing に取り込まれたのは7 から9件。

これを見ると検索エンジンの裏側に詳しくない人は「MicrosoftGoogle の検索結果をコピーしているから不当だ」と思うのかもしれないが、ミソは強調した部分で、IE の Bing ツールバーから」IE の Bing ツールバーをインストールして」「Google検索した」「リンクをクリックした」の3点。この3点が同時に成り立たないと、Google のおとりページは出てこないので、注意深く条件を書いているのだろうが、単純にコピーした、というわけではない。

というのも、普通検索エンジン側がユーザの行動を知るのは検索クエリログ(検索するときに入れた単語はサーバ側に記録されている)と検索クリックスルーログ(どんな単語を入れてどのページをクリックしたのかもサーバ側に記録されている)なのだが、これらよりもっといいリソースとして、ブラウザの検索ツールバーのログがある、ということは前から知られていた。 サーバ側に溜まる行動ログではなく、クライアント側の行動ログを活用する、というのがコロンブスの卵なのだが、問題はクライアント側の情報が外に流れるのは嫌がる人が多いので、デフォルトでオンにはできない、という点。だから、「ツールバーをインストールした人」という限定がつく。

もちろん検索ツールバーを入れるだけで情報がサーバに送られるわけではないのだが、入れて検索ツールバー経由で検索すると情報がサーバに送られるとはちゃんと書いてあるし、ここで送られるものに当然のことながら検索クエリと検索クリックスルー、つまりどのページをクリックしたのか、という情報も含まれる。つまり、「IEのBingツールバー」をインストールして検索した時点で、これらのログは Microsoft に送られる、ということが分かる(そもそもその同意もインストールのときに出てくるはず。読んでないかもしれないけど!)。(2011-02-07 追記) Bing が「ずる」していると言われるとすると、ツールバーを入れただけで、ツールバー以外も含めたブラウザの行動ログが Microsoft に送られている、というところだろう。ちなみに、Googleツールバーを作っているし、Google Chrome というブラウザもあるので、同じことができるのだが、Goolge はツールバーから送られる情報をランキングには使っていないし、Chrome に関しても同様である、と Search Engine Land の元記事に書かれている。ちなみに Bing ツールバーを入れようとすると出てくる同意の文は以下。

improve your online experience with personalized content by allowing us to collect additional information about your system configuration, the searches you do, websites you visit, and how you use our software. We will also use this information to help improve our products and services.”

これだとツールバー以外の情報も使ってもおかしくないように読める。

1点目が理解できると2点目も簡単。どうやって MicrosoftGoogle 検索でしか存在しない「おとり」ページを見つけたか? それは、ツールバーブラウザのログ経由で見つけた、もっと言うと、「IEツールバーツールバーがインストールされた IE で検索した Google のエンジニアが存在をツールバーブラウザ経由で教えた」のである。

3点目については、2点目のだめ押しに過ぎないが、検索クリックスルーと同じで、Google 検索で表示しただけでは必ずしも Microsoft に存在を教えたことにならず、クリックすることによって「これは人間が読むべきページですよ」と Microsoft に教えたことになる。 (2011-02-07 追記) サーバサイドでは検索クエリログや検索クリックスルーログをなんらかの形で活用するのはもはや常識であり、クライアントサイドで使うのもそこまで突飛な話でもない (ツールバーをインストールしたら全部のログが取られるというのは「そんな話は聞いていない」と思うかもしれないが)。設置された100件のうち Bing に取り込まれたのは7-9件だそうだが、これは現在の検索エンジンはいろんな特徴量を用いて機械学習をすることでランキングを決定しているため、「結果をコピーする」という単純な話ではないため。

別の言い方をすると、(試してはいないが)ここで IEツールバーから Google 検索ではなく別の検索エンジンに行き、存在しないページをクリックすると、恐らくそのページがその後(100回中数回かもしれないが) Bing 検索で出現するはずで、別に相手が Google 検索だったからコピーしてずるいことをしている、というわけではなく、「ユーザがクリックするようなページは重要なページだろう」というアルゴリズムに従ってページのインデックスを作っているに過ぎない(もしかすると「サイトのドメインPageRank」が特徴量に入っているかもしれないが、それは別の話)。たぶん、どんなダメな検索エンジンツールバーがインストールされた IE ツールバーから使っても、Bing はそれをコピーする。それは「人間のユーザの行動はランキングを操作したりするロボットと違って正しい」という仮定から来たものであって、「Google 検索のほうが優れているからそれをコピーしている Microsoft は不正をしている」という反論は違うんじゃなかろうか。

(2011-02-07 追記) とはいえ Microsoft が「ツールバーを入れたら情報送る」というのがどこまでユーザは自覚しているのか、という点の認識の違いで、「これはひどい」と思う人もいるだろうし、「同意したんだから当然」と思う人もいるだろうし、その点に関しては個々人の感覚の違いだろうか。

最近はいい教科書もたくさんあるので、検索エンジンの中身に興味がある人はこういうのを読むとよいと思う。日本語で1冊挙げろと言われたら

情報検索と言語処理 (言語と計算)

情報検索と言語処理 (言語と計算)

英語でもいいなら
Introduction to Information Retrieval

Introduction to Information Retrieval

とか(最近の教科書についてよく知らないので、2011年版は@sleepy_yoshi さんの教科書紹介に詳しい)。あとはランキングのアルゴリズムに興味があるなら
Google's Pagerank and Beyond: The Science of Search Engine Rankings

Google's Pagerank and Beyond: The Science of Search Engine Rankings

か、あるいは上記の和訳
Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて―

Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて―

がよい。