音声認識研究の閉塞感は他人事ではない

「何かが欠けている音声認識研究」についての話。を紹介。前も書いたことがあるかもしれないが、id:tihara さんの文章は独特のリズムととぼけた感じがあってとても好きである。

 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日本の音声認識界で知らない人はいないだろうし、先日は海外で基調講演をしてきたばかりである。その先生が、実感として「止まっている」と言っており、各種客観的なデータから「止まっている」ということを読みとっていた。

 私も止まっていると感じているし、そう感じている音声認識技術の研究者は多いようである。実際、20年間進歩がないと言っていた研究者もいた。古井先生の主張はどうやら6年間進歩がないということらしかったが、とにかく6年から20年くらいは進歩がないようである。

音声認識は進歩が止まっているという噂はその筋の研究をしている人たちからよく聞く話なのだが、止まっているにも関わらずあまり実用化に至らない(魅力的な応用がカーナビくらいしかない)、というのが隣接分野から見ていたら不思議な感じであった。Google 音声検索が起爆剤になればいいのだが、ああいうことができる(超大規模なデータを持っていて高いクオリティのサービスを提供できる)ところはかぎられており、一大学の研究室でできる範囲の研究ではどうしようもないところにいるのであろう。

一応認識率は確かにあまり上がっていないのかもしれないが、その他の所で進歩しているのではという指摘もあり、実際それもそうなのかもとは思う。IME の評価でも、1-best の評価でいいのかという話はある(実はあまり Twitter の発言にリンクはしたくないのだが、適当な他のエントリがなかったのでご容赦)し、サービスとして展開するときは、いかにまずい候補を見せないか、もしくは間違えてもいいけど人間が納得するような間違え方でないといけない、という問題があり、こちらに関しては定式化をがんばって理論的にすっきり解決できればいろんな分野の人が喜んでくれるのではないかと思っている。

 本当は、誰か音声の偉い人が「しばらく論文を書くのはやめよう」と言ってくれるのではないかと期待していた。研究をするのをやめるという意味ではなく、論文成果主義からの脱却である。今の論文をとりまくシステムには、局所最適解に陥りやすいという欠点がある。今まさに局所最適解に陥っている音声工学は、このシステムの弊害を真正面から受けているように感じる。今回古井先生が思い切って音声認識技術の進歩の停滞について語ったことは称賛に値すると思うが、なぜ停滞しているのかということについて言及しなかったことは残念だった。

 とにかく私には、この講演は「音声技術には未発見の何かが残っているが、音声研究者はその何かを見つけなくていい」と言っているように聞こえたということである。

自然言語処理も実は音声認識と似たようなところがあって、音声認識の数年後を歩いている(ちょうどアメリカの教育のX年後を日本が後追いするように)と言われることもあるので、あまり他人事でもないし、いまのうちから自然言語処理の研究者はちゃんと次の手を考えておかないといけないと思うのである。ここから tihara さんの意見になるのだが、

 発言力のある上の人がそういう意識である以上、「定常的な成果を求められている音声工学研究者」が「欠けている何か」を見つけることはないだろうと思えるのである。では、誰なら見つけられるだろうか。そこで私が予想するのが、「時間的に余裕があって成果を出す必要のない人」である。つまり、修士の学生である。現役の修士の学生はもしかしたら自分たちに時間はないと思っているかもしれないが、相対的に見ればこの分野では修士が最も「捨てることのできる時間」を持っている。また、「音声認識技術に先入観がなくて成果を出す必要もない人」も「その何か」を見つける可能性があるかもしれないと思っている。つまり、他分野の研究者である。画像工学屋さんや、流体工学のシミュレーション屋さんあたりが有望かと思う。ここで私が思い浮かべているのは、コンピュータ将棋界にBonanzaという新機軸を持ち込んだ理論化学者のことである。最後に、ニートに限りなく近い生活を送っている私のような人にもチャンスがあるかとは思うが、ニートでなければ新発見ができないというのは健全ではない。
[...]
 鍵を握っているのは「音声分野の修士の学生」と「分野外の研究者」と「野良博士ニート」だと思っている。日本の音声工学の職業研究者をとりまく環境が悪いので、彼らには期待していない。

ということで、なるほどなぁ、と納得。博士に進学する予定がない修士の学生、というのがキー。

@taroleo さんから「情報科学の学部生・大学院生の「教育」はどうあるべきか」という問題のヒントをもらったのだが、大学における情報科学の研究者というのはマンガ家と似ていて、「こういうふうにマンガを描いたらいいよ」といくら分かりやすく伝えたからといって優れたマンガ家が産まれるわけではないし、ある程度突き放して自分で学んでいける力を養わなければだめだ、という話。確かにマンガ家もアシスタントを雇って作品を作るわけで、〆切に追われて不安定な生活をするというのも似ている(笑)

そこから考えてみると、優れたマンガ家になるには (1) 新人賞経由で編集者が育てるタイプのマンガ家と、(2) 有名マンガ家のアシスタント出身で先輩マンガ家に育てられるタイプのマンガ家の2種類あるように思う。大学でも、非常に単純化すると、自由に学生やポスドクに研究させるタイプの研究室(文化系の研究室)と、教授もしくは准教授を頂点としたヒエラルキーの中でがっちり組み込まれて上意下達の中で研究させるタイプの研究室(体育会系の研究室)の2種類ある。どちらか優れているということもなく、どちらにもそれぞれのよさがあるのだが、閉塞感を打破してくれる、つまり常になんらかの新陳代謝が働いて、健全な状態に戻ろうとする力が働くのは前者が必要かなぁ、と思う。前者ばかりだと全体のレベルの底上げができないので、後者も必要ではある。

どういうふうにこれらを組み合わせればいいのかと思うのだが、たぶん研究室単位では両方適当な割合で必要であって、どちらのタイプが優勢になるかは分野の成熟度合いによって決まるものであり、(内容で新しい発見があるかどうかは別にして)常に競争力を保てる分野はそのあたりの調整がうまいのであろう。あと、日本では大学を作るとき全分野からまんべんなく研究室のジャンルを揃えてしまうので、大学単位では(1)タイプの研究室しか育たないのだが、本来(2)タイプの研究室を育ててもよいわけで、アメリカでときどきあるように、特定の分野の研究室を(似ててもいいので)ひたすら集めて、「先輩研究室」から学ぶような研究室が育って行ってもいいんじゃないかと思うのである。もしかするとそれが「大講座制」「小講座制」の違いかもしれないが、日本でこれらは効果的に動いていた(る) のだろうか?

これもすぐ結論が出る話ではないが、明日は我が身だと思ってアンテナ張っておいた方がいいのだろうな、と思う。