これからの10年は統計的機械翻訳が発展していく過渡期

この日記の読者さんから、「ソフトウェアのマニュアルの翻訳を仕事としてやっていますが、今度こそ機械翻訳が技術翻訳の世界でも使われると思うので、勉強会を開きたい」ということでメールをいただき、それならこんな感じでやってみては、というアドバイスをしたりなどしているうちに、それなら統計的機械翻訳について1回お話しましょうか、ということで、「第2回統計的機械翻訳研究会」なるものにお呼ばれしてお話してきた。参加者は技術翻訳のプロの方々8名ほど。みなさん先進的な方々で、機械翻訳は毛嫌いするというわけではなく、使えるものがあったらぜひ使いたい、そのために統計翻訳がどういうものか勉強したい、という熱心な方々だったので、2時間の予定が2.5時間話してまだ話が尽きず、懇親会でも2時間くらいお話ししたりして(機械翻訳の問題点や技術翻訳でここが困っているなんていうことについて)、こちらがむしろ恐縮したり。

特に懇親会では、翻訳の実務の人がどういう問題意識で機械翻訳を見ているか、いろいろお話を聞かせてもらって参考になった。そして、現状の統計翻訳がどこまで来ていて、将来どういう方向に向かっているのか、ということをお話ししてみたところ、やはり「時代はそこまで来ているのか」という感覚らしい。さすがにすぐ統計翻訳が機械翻訳のプロに取って代わるということはないと言えるのだが、10年以内にアマチュアの翻訳家のトップレベル程度には到達するであろうことは想像に難くなく(これは対訳コーパスが大量に手に入るなら、という前提だが)、そこまでできたらほとんどの用は足りてしまっているのでは、と思うのである。コンピュータ将棋でも形態素解析でも仮名漢字変換でも音声認識音声合成でもなんでもいいのだが、統計の嵐が来てしまった分野ではあっさり人間が敵わない水準に到達してしまうので、翻訳だけその波を乗り切れると信じる根拠は乏しいだろう(もっとも、翻訳も例外ではないというのも単なる信念ではあるが)。

ロサンゼルスにあるLanguage Weaver という会社に遊びに行ってきたという話を以前書いたのだが、こういう法人を対象とした機械翻訳はすでに実用化されており、特に語順などの統語構造が似ている言語の間ではかなりうまくいく(分かりやすく言えばヨーロッパ系の言語は SVO 型で似ているので翻訳しやすい)し、実際 DellIntel のようなコンピュータ系の大企業では英語のマニュアルや FAQ が原本で、それを各言語に翻訳したいという要求があり、これまでに翻訳した膨大な対訳データも各企業の中に眠っているので、これを活用して劇的にコストを下げた、というのが Language Weaver のすごいところである。
翻訳コストが数十%減った、という話なら「まあ翻訳の補助程度には使えるよね」というくらいなのだが、実際にエンタープライズ(法人向け)翻訳で起こっているのは、コストが数十分の一になった、という話なので、びっくりするのである。たとえばオンラインの FAQ を機械翻訳して公開しておくと、翻訳の質が人手で翻訳するより悪いし、人間が見ても「これはおかしい」というのは分かるのだが、それでも「全く翻訳が存在しない」という状況と比べると、質が悪くても内容はとりあえず分かるので、コールセンターにかかってくる電話の激減によって、明らかに効果が見えるそうだ。もちろん、変な翻訳を公開し続けることによる企業イメージの低下も考慮に入れると一概にそれがいいかどうかは分からないのだが、翻訳する時間も必要ないし、アクセスが多い特定のページだけ人手で翻訳するなどの対処も可能なので、こぞって大企業は導入したがるのである。

確かに機械翻訳が発展する過渡期にいる人たちからすると、自分たちの仕事がなくなるかもしれない、という危機感はあるのだろうし、それもなんとかしないといけない問題ではあるが、掃除機や炊飯器、電子レンジや洗濯機ができて専業主婦の仕事がどんどん減ってしまっても、長期的には女性の社会進出を下支えしたように、翻訳にまつわる社会(産業)構造を中期的には変えつつ機械翻訳と人手の翻訳が住み分けていくのだろうなと感じている。もっとも、統計翻訳でもあといくつかブレイクスルーがないと、語順の異なる言語(SVO の英語と SOV の日本語の間とかね)ではうまく行かないのかもしれないが、それで仮に日本語に翻訳する翻訳家の産業が維持されたとして、そこで起きるのは「日本語に翻訳するのが難しいなら日本語でマニュアル作るのは止めよう、中国語への翻訳は研究者もたくさんいるし、市場も大きいから、中国語に翻訳すればいいか」という現象ではないか、ということを危惧している。あと、中国のほうが労働力が安いので、英語から日本語に翻訳する中国人の翻訳業が盛んになるのではないか、と聞いてみたら、すでに実際そういう業者が存在して、コスト面では日本人は敵わないらしい。もしそういう流れが主流になってしまうくらいなら、多言語の統計翻訳の研究を日本発でもっとしっかりやっておいて、日本語の発言力も維持しておかないとまずいことになりそうだな、とは思うのだが……

というわけで、統計翻訳でもまだいくつかやりたいことはあるので、自分としても研究としてやれるといいなぁと思ったりもするのだが、はてさて……。