ブリトニー・スピアーズ

ブリトニー・スピアーズというのは「有名だけどスペルがよく分からない人」の例としてよく聞くのだが、こういうのは検索ログみたいなののデータがあると「他の人はどういう間違え方をするのか」ってのがよく分かる。「キーボードで位置が近いと打ち間違えやすい」とか「音が同じで違う綴りがあると間違えやすい」とかいろいろあるのだが、頭でなにが効きそうか考えるより、データが大規模にあればそれから間違いを発見できそうだ、というわけ。

で、Google の検索ログデータが Britney Spears spelling correction というページにまとまっている。なんというか、人間っていろいろな間違え方(「こんな間違え方しないだろ?!」と思うようなものも大量にある)するものである。(一般の人が見られるところにこういうデータを置いてくれて Google の中の人たちは偉いと思う)

よくある間違いはそれなりに辞書と文字列の近さを見ればよさそうだが、低頻度の間違いも多々あって(いわゆるロングテールというやつである)、こういう低頻度のものが本質的に含まれるところが誤り訂正の難しい、というかおもしろいところである。(単純に低頻度のものは捨てる、ということを自然言語処理ではよくするのだが、これは捨てるものの中にそれなりに情報が含まれている) これだけ多様性があると辞書を使うアプローチでは限界があって、なんらかの誤り認識するモデルを作ってやるのがスマートという話になる。あと、検索エンジン作っている人からすると、誤りを直すのはいいが、それなりに速く動いてくれないと使い物にならない、とかいうこともある。

多様性は善、って思っていたけど、こういう生のデータ見ると、多様性って本当にいいのか? と思ったりもする……。ATOK の変換で「日本語を特定のスタイルで書くことが強制されている」とか騒ぐ人もいるけど、それくらいして一定のスタイルにするくらいでちょうどいい気もする。政策的には、というか教育的にはちゃんと書き方も含めて小学生のころから教育するべきだと思うけど……(いまの日本の教育システムでは「文章の書き方」については教わる機会がない)

こういうデータ見ると自分はとてもおもしろいと思うんだけど、これ見ておもしろいと思うかフーンと思うかは人それぞれかな……。企業の中にいないとこういうデータをあまり見る機会がないのが残念なところだけど、「おもしろい!!」と思う人は絶対自然言語処理向いていると思うので、ぜひお近くの自然言語処理研究室まで ;-) 参考までに、自分の通う奈良先端大の松本研究室も学生総勢30人強のアットホームないい研究室です。大学院大学なので大学院しかないけど、文系・理系・飛び級・社会人経験者・留学生・留年生(←一文字違い)など広く受け入れています。2月16日が受験生向けのオープンキャンパスですので興味ある人はどうぞー。