Google 音声検索と自然言語処理の未来

先日 Google 音声検索を取り上げたことはあるのだが、再度取り上げてみる。

というのも、kmurakami さんが来週音声情報処理と自然言語処理についてのパネル発表に呼ばれているらしいのだが、自然言語処理と音声情報処理の人ってあまり交流がないよね、という話で、その理由と、今後どうしたらいいか、という意見を聞かれたので。

分野外の人から見ると、音声認識や音声合成と、自然言語処理(かな漢字変換とか機械翻訳とか)は、どっちもコトバを使っているから同じように見えるかもしれないが、大学というのは思った以上に縦割り組織なので、研究室が違うと全くといってよいほど交流がない(教授のレベルではあるのだろうが、学生のレベルでは)。理由の一つとしては、自分の専門分野の国際会議なり論文誌なりに研究成果を発表するのが業績になり、自分の専門分野以外で発表しても評価のしようがないので、タコツボ化してしまう、というものはある。音声と自然言語処理は分野としては近いのだが、分野として近かろうが遠かろうが、大学が研究室単位で動いている以上、協力も難しい、というわけ。(もちろん、音声と自然言語処理がいっしょの研究室になっているところは、協力してやっているように見える)

そこで最近自分が注目しているのはウェブ(検索)であり、ウェブはデータ構造・アルゴリズムから機械学習、ユーザインタフェースから自然言語処理まで、全部を横断的に統合することができる、なにやら闇鍋の様相を呈しているが、大学人としてはこのチャンスを活用しない手はないわけで、ウェブをキーワードにゆるーく連帯してみてはいかがか、と思う。確かに情報爆発や情報大航海のような巨大プロジェクトでレールは敷かれたものの、そんなにつながっているような印象はなく、やっぱり個々に別れてちんまり研究している感があるので、ちょっともったいない(そのあたり「草食系」でがつがつしていないのも情報系のコミュニティのいいところではあるのだが)。

そこに登場したのが Google 音声検索。これ、単に音声で検索ができると言ってしまえばそれだけなのだが、それが思った以上に革命的なのである。自分もあの記事を書いたときにはまだ試していなかったのだが、id:cafebabe さんの高速な路線・終電検索方法や歌手名の音声検索、Google 音声検索の問題点を見たりして、「おお、こんな使い方が！」と開眼した次第。なにができるかはASCII 絶対に覚えたい iPhone＋Google音声検索・10の技にあるのだが、iPhone を持っている人はぜひ Google アプリをダウンロードして試してもらいたい。かなり認識精度が高いのでびっくりするとともに、「声を出す」という行為が(PC の前では異様でも)ごく自然な携帯電話のマイクを利用した検索は、異様に便利である。

使っている技術としては、大まかにはかな漢字変換と音声認識の技術は同じであり、入力がキーボードであるか音声であるかだけの違いで、出力は両方単語列なので、大規模なデータを持っている Google の面目躍如、というところ。

使ってみた感想としては、もうかな漢字変換なんてやっているようでは時代遅れ、と思わざるを得ないくらい、けっこう認識してくれる。フリック入力がいかにさくさく入力できるとはいえ、単語を少しつぶやくだけで入ってくれるのは、段違いの快適さである。もちろん、フルキーボードで入れる馬鹿らしさと比べると、もう異次元の世界である。もちろん Google N-gram のデータや検索クエリログ、クリックスルーログの情報などが、文字入力(サジェスト)だけではなく、音声検索にもふんだんに使われているのであろう。

翻って音声と自然言語のコミュニティの話に戻ると、これからはこういうウェブ検索、ウェブインタフェースを起点とした音声と自然言語処理の連携が重要であり、それこそがお互い持っている知識を総動員して問題に取り組んでいく起爆剤になるのではないかと思っている。一応指摘しておくと、アメリカでは GALE というタスク指向の巨大プロジェクトがあり、こういう巨大プロジェクトの中で各分野が連携している。日本ではそのような巨大プロジェクトがないので、逆に他の機会を利用しないと連携しないのではないか、と感じている。