新学期のはじまりと情報検索システム論

M1 の人たちは今日から授業らしい。そろそろ研究で忙しくなってくるころかな? 自分も人生最後(hopefully)の授業料免除申請の書類を揃える。年々必要となる書類が増えるのはどうかと思うが、世の中厳しくなっているのであろう。自分は1回だけ不許可となったことがあるが、残りはずっと半額免除してもらっているので、だいぶ助かっている(年額26万円、月々2万円違う)。大学院、特に博士後期課程の授業料くらい、正規の年数滞在する人は全額免除でいいと思うのだけど……(長くいる場合は研究生と同じで徴収するのは分かるが)。

最近ひょんなこと(=Twitter)から大阪市立大学大学院創造都市研究科なるものを知ったのだが、ここも NAIST と同じく大学院のみのようで、いろいろおもしろい授業をしているらしい(文系からも進学できるので)。たとえば情報検索システム論なんて授業で、半期で検索システムについて体系的に学ぶことができる。アメリカの大学と日本の大学の違いは一言で言うと「集約度」というエントリーでは

Introduction to Information Retrieval

Introduction to Information Retrieval

の著者の Chris Manning が教えるInformation Retrieval and Web Searchという授業があるのだが、内容的には(演習を除けば)がんばっていると思う。ちなみに上記 Stanford の授業はYouTube で見ることができる(@hidekishimaさん情報ありがとうございます!)。

自分が @shibataism さんの上記のエントリを見て「なるほど」と思ったのは末尾の段落で、

他方、Information Retrievalの方はそんなに数学や統計が難しいという感じではなく、"Googler"養成講座という具合です。講師の片方がY!の人なのが皮肉なのですが、検索エンジンの作り方をゼロから叩き込むという講義になっています。まだ数回ですが、検索エンジンを作るというのは、学術的に何にも面白くなく、ただただ効率性を追求し、マシン性能との闘いをひたすらするという、(少なくても僕にとっては)恐ろしく退屈なものだということが良く分かりました。泥臭いところを丁寧にやっているなぁという感じで、本当にこれをゼロからやったGoogleの2人は偉いと思いました。

というところなのだが、検索エンジンの作り方を叩き込むという授業は、それをおもしろいと感じる人もいれば、退屈だと感じる人もいるのだろう。自分はどっちかというと後者かな……(shibataism さんと同じく、このあたりをしっかりやっている Googler の人たちは偉いと思う)。学術的におもしろいところもあると思うけど、自分がおもしろいと感じるところとは違うだろうし、たぶんこの講義ではそこまでは到達しないであろう(IIR 本を読んだ経験からすると)。「検索エンジンを作る」というのは、もうだいたい作法が決まっていて、それなりのプログラミング能力のある人なら教科書を見ながら作れるものであって(そこから先スケールするようにしたりするところが本当に大変なのだろうが)、作る過程でなにか得ることが目的なのかなと思う。そう考えると、文系の人向けの授業は座学中心でもいいんじゃないかなと思った。

情報検索システムといえば、バイドゥ公式スタッフブログが始まったそうだ。Yahoo! のスタッフブログがけっこう読まれていることからすると、バイドゥのスタッフブログも読まれていてよさそうなものだが、あまりブックマーク数も多くないようで、ちょっともったいない気がする。Yahoo! と比べて日本人エンジニアは遙かに少ない中、よくやっていると思う(検索エンジン周りはある程度枯れた技術が多いので、少人数でもできるのだろうけど)。

個人的におもしろかったのは @mhagiwaraさんが書いた絵文字検索。入社半年でモバイル検索のコアエンジン部を作っているというのもすごいが、アルゴリズムをかみ砕いて書いてくれているのもすごい。

[...]そこで私たちは、「ビール」という自然言語の単語を使って、このような絵文字を含むページを検索できれば便利だと考えました。具体的には、一部の高頻度かつ重要な絵文字について、自然言語処理の分野で「語義曖昧性解消」と呼ばれる手法を用いて、文脈を元にしてその意味の推定を試みながら、「絵文字意味検索」に取り組み始めました。

こういう形で語義曖昧性解消を検索エンジンみたいなアプリケーションに組み込んでいくのは重要なことだと思う。(実際は辞書的な語義をつけるわけではなく、pLSI や LDA みたいな形で、自動的に推定されたクラスをマッピングするのだろうけど)

というわけで @tettsyun くんの嘆きも分かるけど、先に進んでいける人は自分で先に進んでいけばいいのではないかと :-) 自分が半期1コマ担当させてもらえるなら情報検索システム作る講義も(一通り自然言語処理機械学習のテクニックを解説できるし)悪くないと思うけど、どうするかね〜。