クリックスルーログの論文に関する問い合わせ

来週火曜日の午前中だけ Yahoo! Labs に遊びに行くつもりなのだが、今年 Yahoo! Labs の研究者の人たちはクリックスルーやクエリのログを使った研究を立て続けに発表しているので、(Pantel さんではない別の人から)トークを頼まれる。社内の案内少しと、(Yahoo! の仕事とはあまり関係のない博士論文の話をしつつ)ランチだけ食べに行くつもりだったし、先週金曜日トークも含めて半日丸々話しっぱなしでかなり疲れたので、迷いに迷ったのだが、これも縁かなぁ、と思って OK してみる。

でも来週月曜が休みで、告知まで時間がなかったので、人が集まらなかったら流れるかも? という話だったので、一応準備はするが、流れてくれても嬉しいし、流れてくれなくても大丈夫、みたいな……。

O 野原くんが各地で呼ばれて発表したりしているのを見ていて、同学年なのにすごいなぁ(いや、本来なら同学年ではないのだが……)、ああいうふうになれるようにがんばろう、と思って努力中だが、少しは近づいているのだろうか……。自分が近づいた分相手は止まっていてくれるわけではないので、それ以上の加速度で前に進まないといけないのだが、大学院生生活振り返って、どうかなぁー 修士のころほどは最近自分の成長曲線鈍っていると思うので、このあたりで(来年4月からは状況も変わるし)巻き直したい。

そうこうしていると Microsoft (MSR) の人から、SIGIR 08 で自分たちもクリックスルーログに関する研究したんだけど、きみたちの研究もかなり似ているようなので、詳細教えてくれない? とメールもらう(short paper だったので省いたところがたくさんあった)。読んだ記憶はあるのだが、ACM 会員じゃないと SIGIR の論文はダウンロードできないようで、送ってもらったりしつつ読んでみると、手法はほとんど同じでデータの作り方とタスクが少し違う、という感じかな? 

KDD 09 ではタスクがほとんど同じでデータの作り方と手法が少し違う、という研究が出ていたし、クリックスルーログを活用する話はそろそろ打ち止めなのかも。クリックスルーログ、あれば特定のタスクでは非常に効果が高いことが、複数の研究グループから示されたので、だいぶ信じてよい情報なんだと思う。

企業としては、使えば効果があるデータがまだ大量に眠っているかもしれないので、そういうのをいかに見つけてお手軽に精度高くできるかってのが、重要なんじゃないかな〜。(Hisami さんが今年 EMNLP で論文書いていたが、セッションログも自然言語処理で使えるデータだと思うし、ログ以外にも大きな企業であれば使えるデータはなにかありそう)