機械翻訳

MSR で作っていた機械翻訳器がリリースされたそうだ。日本語の記事はMicrosoft、自社開発の機械翻訳サービスを提供開始で読める。

依存構造解析を使った機械翻訳がこの規模で使われるのは、よくぞここまでこぎ着けた、と自分としては感服するのだが、統計翻訳に関しては、翻訳クオリティに納得が行っていない人も多いんじゃないかな……。特に英語と日本語の間ではまだ統計翻訳ではルールベースで作り込んだ翻訳には敵わないわけで、批判もあるだろうにあえて公開するのは大胆、としか言いようがない。

ユーザの人には中の仕組みなんて関係ない、ちゃんと翻訳できさえすればいい、というのはその通りだけど、ここまで現象論的に分析する人であれば、統計翻訳の基本(というか現状?)を少し知れば疑問の大多数は解消するような気がする(だからといって変な翻訳が出てきてしまうのを止められるわけではないが)。手頃な解説記事とかあればいいのだが、たとえばこれとかこれとかこれとかかな。自然言語処理学会でのチュートリアル資料も参考になるが、自然言語処理専門の人でないとつらいかも。

現状を知れば氷解する疑問としては、たとえば

なお、私には類推することしかできませんが、Google翻訳は、ひらがなが連続する文字列についての解析を諦めているのではないかとすら思います。日本語は語と語の間にスペースを入れるといったこともないし、「は」という文字は常に助詞として用いられ、それが語の区切りを示すといったこともないので、「機械的に語を置き換える」という処理そのものが単純にはいかない。そこで形態素解析の出番ですよ、ということになるのだけれども、それ以上のことは私にはわかりませんのでこのへんで。

とあるのだが、統計翻訳でも日本語を相手にする場合普通は単語分割し、英語の文との間で単語や句、木構造などの(確率的)対応づけを行って翻訳するので、機械的に語を置き換えているわけではないし、形態素解析は行っているのだが、それがうまく行っていないということ(特にひらがな連続に関しては形態素解析がそもそも難しい)であって、いろいろ研究上での努力はあっても、なかなか難しいというのが現状だと思う。

上記記事にもあるが、英語フランス語間のように、かなり語順が似ている言語の間では、句に基づいた統計翻訳でかなりの性能が出ることが知られていて、英語と日本語の間では語順がけっこう違うので、いろんな方策が取られている、といったところかなあ。先日公開された英日対訳特許文200万文を使うと、句ベースでもかなり翻訳できるようなのだが、Google が何万文持っているのかにもよるだろうし。

やっぱり統計的手法だと、一般の人が試してこうしたらよくなるとか悪くなるとか意味不明になりがちなのが、よくないところなのかもしれない。(かな漢字変換でも同様な展開があった気がする)