大和国

プレゼンテーションの授業、人が減って4人になった。と思ったら noah-e さんが途中から入ってきた。jordi-p さんと合わせて松本研3/5。松本研率高い。

プレゼンテーションってもろに趣味が出るので、大量にいろんなうまい人のプレゼンテーションを見て、自分に合ったスタイルで真似したい人のやり方を真似る、というのがいちばんいいと思う(文章書くのも同じ)のだけど、最初は練習だと思ってやるしかないね。できるようになってから自分のスタイルにすればいいわけだし。

今日は Introduction to Information Retrieval の第2章と第3章。なんか新しく人が3人増えたので少し復習。第3章はワイルドカード検索の実装の仕方やミススペリングの訂正の話。ミススペリングをどう直すかって Web の自然言語処理ではかなり重要な問題(本文にも書いてあるけど日本語では特に)だと思うのだけど、なんかほとんどの場合は MeCab とか ChaSen をざざっとかけてそのまま使うってみんなやっていて、本当にそれでいいのかなと思うことはある。自然言語処理では問題点をクリアにするために前段階の処理までは完璧にできたものとして正解データを作って学習することがよくあるのだけど、実データではそういう状況でないことが往々にしてあって……。

あと先週からよく出てくる例としては York University で検索する人はたぶん New York University が検索上位には来てほしくないと思うのだけど、Google だと York University (もしくは University of York)しか出てこないのに、Yahoo! だと New York University も上位に出てくるってことがある。検索したクエリと実際にクリックしたかどうかのデータでも使っているのかなと思うのだが、Google はいろいろ賢い。

勉強会のあと研究室の人たちで話していたら、ジャンプやサンデーの漫画はふりがながついているので(特に漢字圏の留学生にとっては)いい日本語のテキストになるらしい、ということを知る。今度ふりがなつきの漫画ばっかり持ってこようかな。また、昔の地名ってみんなそんな知らないんだなということも知る。まあ、自分に関しては小学生の時信長の野望を毎日やっていたせいかな……(そのせいでマップになかった藩の名前はよく分からない:-p)。