フィフティー・フィフティー

日本学生支援機構 返還免除通知来た」とかいう検索クエリで来る人がここ1週間くらい毎日のようにいるのだが、みんな気になっているのかな? 自分は月曜日に届いていた。半額免除。知っていたけどせつない。ちなみに授業料免除も今日貼り出されていて、半額免除だった。こちらは(NAIST 的には)全額免除はいないのでこれが満額。今年から多少お給料もらうことになるので免除から外れるかと心配していたが、大丈夫のようである。

今日も論文直しの続き。こうなることが分かっていたら1週間前からではなく2週間前から書いていればよかったのだが、こうなることは分かっていなかったので、仕方ないかー。しかし前回も2週間前から書くのがベストとまとめているのに学習していない……。

検索サイトの舞台裏--グーグル幹部が明かす改善手法読んだ。タイトルは釣りだが書いてあることはなるほどと思う。

Googleはユーザーに対し、デザインの異なる複数のページを表示し、その反応を測っていると説明した。

 Mayer氏によると、例えばGoogleは、ユーザーに対して表示する検索結果を何件にすべきかを探りたかったという。通常は、10件か20 件、25件か30件といったところだろう。この点についてユーザーに直接質問すると、彼らはより多くの検索結果を表示して欲しいと答えた。しかし、実験では全く別の結果が出た。

 Mayer氏によると、検索結果の件数を1ページ当たり30件に増やしたところ、ユーザーの検索は全体的に20%減少したという。Googleがサーバーログを綿密に分析した結果、この検索の減少は、検索リストが長いと表示におよそ2倍の時間を要するためだと分かった。つまり、表示速度が重要なのだ。

 「表示速度が上がれば人々はより多く検索し、逆に速度が下がれば人々の検索は減少する」(Mayer氏)

 これと同じ現象がGoogle Mapsでも見られた。Googleが120Kバイトのページサイズをおよそ30%縮小したところ、地図のリクエストがおよそ3割増加したのだ。「表示速度と利用率の関係は、ほぼ比例する。より素早く製品を提供すれば、利用の増加という形で返ってくる」(Mayer氏)

企業だとこういうところをみんな地道に計測したりしているのが強いな。「いっぱい表示してほしい」などと口では言いながら実際の行動が違う人、いるいる……やはり実験で示すと説得力がある。科研の特定領域研究の情報爆発プロジェクト(いわゆる「日の丸検索エンジン」)でもモニターを募って検索実験するようだが、研究としての評価もさることながら、こういうところも調べた方がいいんでは、という気がする(API 経由で検索クエリを投げても遅すぎて使えないとかいうのは勘弁してほしい。最近は Twitter が遅すぎてイライラするのでログインしなくなってきているが)。

Powerset joins Live Searchという公式(?)アナウンスが出たようだが、Fast に続き Powerset まで買って、Google 猛追している感じである。

We know today that roughly a third of searches don't get answered on the first search and first click. Usually searchers find the information they want eventually, but that often requires multiple searches or clicks on multiple search results. Two specific problems are the most common reasons for this:

  • Differences in phrasing or context between a user's search and the way the same information is expressed on webpages. Search engines don't understand today that "shrub" and "tree" are similar concepts. We don't understand that "cancer" sometimes refers to a disease and sometimes refers to a horoscope and when a query or a webpage refers to which.
  • Lack of clarity in the descriptions for each webpage in the search results. Sometimes a result looks relevant from its short description on the results page but turns out to be not so relevant when you visit the actual page. As a result, searchers frequently click results and then rapidly click back when they realize they aren't what they're looking for.

These problems exist because search engines today primarily match words in a search to words on a webpage. We can solve these problems by working to understand the intent behind each search and the concepts and meaning embedded in a webpage. Doing so, we can innovate in the quality of the search results, in the flexibility with which searchers can phrase their queries, and in the search user experience. We will use knowledge extracted from webpages to improve the result descriptions and provide new tools to help customers search better.

今日の松本研研究会では asuka-s さんが Wikipedia と Web ページから数百万ペアの上位下位関係を9割の精度で抽出するという話をしていたが、Powerset の人も Wikipedia はかなり使い込んでいるようなので、Powerset の人たちが加わると一気にこのあたりの競争が加速しそうである。「インターネットでサービスを提供するなら Wikipedia から獲得した知識を使うのはデフォルトだよね」というような風潮になったり。