2008年検索キーワードランキングに見る検索ログの特徴

Yahoo! Japan 検索ランキングより2008検索ワードランキング

検索クエリのログというのはおもしろいもので、ランキングだけ見ていてもなんとなくみんながなにを知りたいのか(もっと正確には、「その検索エンジンを使っている人がなにを知りたいのか」)を知ることかできる。Yahoo! に行って「Google」と検索する人が上位4位というのも、知らない人には驚くべき事実かもしれないが、実際はこういうふうに「サイトに行きたいけどアドレスを憶えていない(もしくは入れるのが面倒くさい)ので検索する」という「ナビゲーショナル」な検索クエリが、総数としては全体のかなりの部分を占めているのである。

それで今回のランキングでおもしろいところは、単に(たぶんアダルト用語を除いたり頻度を外すなどの簡単な処理をした)ランキングを出しただけではなく、著名人ランキングやゲーム・アニメランキングのように、カテゴリ別のランキングを出したところである。こうすると、その分野でみんながどんなことに関心があるのかはっきり分かるので、膨大な検索ログを見なくてよくてお手軽である。実際に用意する側としては、検索ログにこれは芸能人名だとかこれはゲーム名だとかいうラベルをつけておかないといけないので(一部は Wikipedia を使ったりして自動で付与できるだろうが)、多少人手が必要ではあるが、このようにランキングだけ出してもおもしろいコンテンツだというのは特筆すべきである。

同じ時期の1年前と比べたり、時系列データを入れるとトレンドの移り変わりや人気の爆発(バーストという)が見えたりして、検索クエリログの使い方はいろいろある。Google trend のように入力してその場で可視化するようなインタフェース作るとか、いろいろ見せ方はあると思うけど。あとは検索元の IP アドレスなどから地理的な特性を認識できると、地域的な検索の特徴なんかも分かるので、これはこれで有用な情報である。(ユーザのアカウントと紐付けされていれば性別や年齢などのデータまで使えたりするので、なかなか強力である。ユーザが正直に登録しているとは限らないけど……)

自然言語処理の研究としては、こういうランキング作成の支援も一つあるが、ここから一段進んだレベルの知識獲得をしたいところなんだよな。上位数万件程度であれば人手で見られるが、低頻度のクエリまで含めた大規模なデータを処理できるというのが計算機を使う利点なわけで……。

というわけで、検索クエリログを用いた研究に今後注目である。ここからは宣伝だが、今日本語で読める検索クエリログを用いた研究は(自然言語処理以外の分野のものは見落としているかもしれないが)

の2つしかなく、しかも両方 MSR の鈴木久美さんのところでのインターンシップ中の成果なので、そもそもやっている人が少ないが、検索エンジンの差別化(あと人手をかけられない会社とか)のためにはどこもこの領域の研究進めたほうがいいと思うけどなぁ……。

(追記) はてなブックマークのコメントで京都大学の田中研究室で検索ログを用いた研究をされているのを教えてもらった。どうもありがとうございます。もう一つのヤフー、検索語データを情報爆発プロジェクトの研究者向けに無償提供という話は、ここで提供されるのは毎月の上位1万件にすぎない(12ヶ月分で12万件ということになっているが、検索クエリの上位は月による変動はほとんどないので、1年分といえどほぼ上位1万件と思ってよい)し、上位1万件というのはほとんどナビゲーショナルなクエリと固有名詞単体のクエリだったりするので、これだけからなんらかの知識を取ってくるのはかなり厳しい(その検索語を入れた人がどのページをクリックしたか、というクリックスルーのログとか、前後のセッションでなにを入れたか、というセッションのログがあれば別だが)。

Yahoo! に厳しいコメントになってしまうが、このデータの公開は「これを研究に使ってください」というよりは、アカデミックに対してデータも公開していますよ、というパフォーマンスの面が強いのかな、と思ってしまう(たとえば Google が公開している日本語 N グラムデータは研究で即座に使うことができるのと対照的である)。いや、研究と言っても自然言語処理だけではないので、たとえば社会学系の人なんかはこれを見て新語の盛衰を分析したりできるかもしれないので、このデータ自体を使ってなにかできる人はいるのかもしれないが……。

ただこういうところを突破口に産学で連携していければそれはとてもすばらしいことだし、Yahoo! がこれに限らずオープンな体制だというのは特筆すべき点である(たとえば API の公開とか)。今後もどんどん(出せるところ出せないところの「大人の事情」をお互い分かった上で)協力していけるとよいな、と思っている。Yahoo! がんばれ!