検索クリックログとソーシャルブックマークのタグデータの類似点と相違点

お昼の時間 id:y_yanbe さんをお誘いして外でご飯。Twitter で誘っているのを横目で見ていた id:makimoto くんが参加したいというので合流。どこに行くのがいいか、六本木ランチマップに詳しい makimoto くんに聞いてみると、やっぱりカレーじゃないですか、と言うのでカレーに。4月から某社に行く人は最初カレーの洗礼を受けるんじゃないかと思ったりする。いや、誰が行くのか知らないけど……

y_yanbe さんの研究内容について伺ったのだが、ソーシャルブックマークを使って検索のランキングをよくする(意訳)という研究をされているそうで、確かにソーシャルブックマークも情報としては使えそうである。

検索のクリックスルー(あるクエリを入力した人がどのアドレスをクリックしているか)を使うと、ユーザがどういう意図を持ってクエリを入れたのか暗黙的に推測することができるが、ソーシャルブックマークにブックマークして、さらにタグやコメントまで入れてくれる場合、ユーザがどういう意図を持ってクエリを入れたのか、明示的に推測することができる(クエリを入れてページを訪れる場合とそうでなく突然ジャンプしてくる場合があるので、分けないといけないが)。

クリックスルーログの場合、基本的には無尽蔵だがラベル(タグ)がついていないので信頼性に欠けるという問題点があり、逆にソーシャルブックマークの場合、数が少ないがラベルもついているし能動的に登録するので信頼できる、という違いはあるが、だいたい同じ枠組みで扱えそうで、ソーシャルブックマークでついた少量(といっても数十万ブックマークに対する)のラベル(タグ)をグラフベース(や belief propagation とか Markov random walk)の手法を用いて伝播させていく、というのはありうる話かなと思う。

まあ、それでタグをつけてどうするんだ、というのは考えないといけないが……(y_yanbe さんがやっているように、検索結果のリランキングや曖昧性の解消には使えそうだが、それが検索全体の中でどれくらい嬉しいことなのかちょっと分からない)

夜は少し早く抜けさせてもらって神保町の国立情報学研究所 (NII)へ。今日は gutti さんの紹介で NII の汎用連想計算エンジン(GETA)を公開してらっしゃる高野さんとお会いする。GETA は一言で言えば検索エンジンなのだが、リンク解析とか検索ログとか一切使わず、機械学習をするわけでもなく、検索対象文書とクエリの類似度のみを使う(少し賢いことをしているが、単語に重みをつける以外はほとんど cos 類似度のような感じ)古き良き時代の検索エンジンという感じである。情報系では割と使っている人がいると思うが、それは作りがシンプルだからかな？　と思ったりもする(なんだかんだとまだ Namazu も使われているし……)。

手法的にはこれちゃんと評価されているの？　と思うところはあった(実際聞いてみたら評価は全くしていないようだ)が、デモを見せてもらうと結果的にはそこそこ動いているように見える。あえて重要度の高い文書を見つけることは全く諦め、完全に関連度の高い文書を見つけることにのみ集中している、というのがキモなんだと思う(でもそれならああいう式ではなく、正則化ラプラシアンとか使ったほうがいいような)。ただ新書検索のとき文書として使えるのは数行の目次だけだったりして、超スパースなデータなので、なにも対処しないでまともに動くようには思えなかったけど……(たぶん再現率がすごく低いんじゃないかと思うので、いろいろパラメータ調整を必死にやっているような気がする)　

「専門家の人には受けがよくないんだけど、一般の人はすごく喜んでくれる」と断りが入ったが、確かに見せてくれたデモはどれもかなり作り込まれていてびっくり。これはプログラムマネージャーとしての才能が異様に優れているんだろうな、と思った。単純なことかもしれないが、DB が数十個あってどれも一瞬で結果が返ってくるのも、かなりプログラムがんばって書いてあるんじゃないかな、と思う。

結局は検索がどうのというよりは、本が好きで好きで、検索が強くなって本の文化が衰退してしまうことが本当に嫌で、それをなんとか食い止めるためにあえて敵である検索エンジンを作ってみた、と、そんな印象であった。自分も本好きなので、本の文化が衰退するのは反対だが、自分だったら Amazon (でもどこでも、本を売るところで最大手トップ3までに入るくらいのところ)にエンジニア・リサーチャーとして入って、もっとおもしろい検索結果が返るようにアルゴリズムを直したいなぁ。結局自分でポリシーを持って作っていても、インターネットの世界だとシェアが高いところばかりにアクセスが集中してしまうので、世の中を変えようと思ったらユーザベースが大きいところに行かないといけないわけで。結局作っても使ってくれなかったらやりがいがないように感じてしまう。

とはいえ、高野さんのように(元)国立の研究所や大学に所属し、オープンソースにして、将来に渡って無料であることが保証されているサービスを提供するのも意味があると思うし、実際に無料であるからこそデータを出してくれる、という博物館のようなところもあるので、お手軽に使える無料検索エンジンとして提供されているのはすばらしいことだと思う。

中央大法学部2年生の学生さんも話を聞きにきていて、デモを見て「すげー」「かっこいいっすね」と連発していたので、自分的には新鮮だったり……。これくらい反応してくれると作った甲斐があるのかも。

夜は千駄ヶ谷のイタリアン？レストランに行ってワインを飲んだり。その学生さん、将来は Web 広告業界に飛び込みたい(SEO 対策とかやりたい)そうで、目の付け所はいいかもしれないけど、まずはマスコミとか新聞記者とか、もしくは普通の広告業界とか、伝統的な企業に入ってから中途で来た方がよいのでは、とアドバイスしておいた。技術に感動してくれるのは嬉しいが、技術を過信されても困るので、ちゃんとした認識・しっかりした判断力を持ってもらってからの方がいいような……