Google 翻訳についてもう一言

id:nofrills さんからトラックバックいただいたりしたが、感想としてはたつをさんが書いているのと同じかなぁ。結局、まだまだ研究段階のシロモノで、ユーザが「これは使える!」と飛びつくようなレベルではないし、まだ質の高いものがほしければ商用の製品がいくつも出ているので、そちらを使った方がいいのでは、というところ。(nofrills さんともたつをさんとも同意見)

たつをさんのブログからの引用:

学生が夏休みに作るプロトタイプじゃないんだから。
いかにベータ版といえども最低限度の品質は保ってもらわないと、
まじめに英日機械翻訳やっている人に迷惑。
統計とか機械学習とかそういうのやっている人に迷惑。
機械翻訳」を名乗るのはもうちょっと質が上がってからにしてくれ。

と思ったけど、むしろ、逆に「Google がやるんだから」と
過度に期待をかけすぎる人たちの方が迷惑かも。
Google でさえこのくらいなんだから
機械翻訳ってぜんぜん使えないねー」と
世間に思われちゃったりする状況を引き起こすからね。

特に Google を過度に信頼する人にとって、「なんでも統計でやってすごいことをする Google が翻訳まで統計でやるようになった! すごい!!」とか思う人続出なんだろうけど、統計翻訳自体は1990年代初頭から IBM が研究開発を始めたもので、他の企業や研究所は「研究はするけど(翻訳の質が到底ルール・知識ベースのものに敵わないので)製品としてはリリースしない」という経営判断をしてきたものを、あえて出しているわけで、そのあたりの事情は普通分からないので、夢膨らんで(統計)翻訳にありえない期待する人が出てくるとよくないと思うのであった。まあ、前にも書いたように、マイクロソフトも統計翻訳ベースのものをリリースしたようで、そういう動きに先鞭をつけたこの2社は自分も応援している。

ただ語順が似ている言語は割と統計ベースでうまく行くので、たとえば日本語から/への翻訳だと韓国語なんかはうまく行くと思われる(たぶんたつをさんはそのあたり知っているので「英日翻訳」と書いているのだと思うけど)。

そして nofrills さんの別のエントリGoogle 翻訳って全面的に statistical?から

いくら「統計翻訳」といっていても、日本語と英語の間での「翻訳」(単純に、言語Aから言語Bに置き換えること)に際して、A is B. / A is not B. のようなものすごく基本的なルールを入れないで100パーセント統計だけでやるってのは……

とあるが、ほとんどの統計翻訳の場合、そういった基本的なルールは入れないで100%統計だけでやると思う(基本的なルールを全く入れられないというわけではない)。ただ、そうすると「だ」とか「で ある」とか「で は あり ませ ん」の中の「で」「は」「あり」「ませ」「ん」とかいった日本語の単語がどの英語の単語に対応づくかの確率推定はかなり難しいことになる。(そもそも日本語の「は」とか「ん」が英語のどの単語になるかなんて人間では考えないと思うけど……) 

統計翻訳でも全く文法を使わないのかというとそうでもなくて、既存の文法的知識との統合というのも盛んに研究されている。ただ、ここ数年まで統計翻訳に既存の構文解析や意味解析は入れてもむしろ性能が落ちることが知られていて(このあたりでもすでに一般の人の直感に反すると思うのだけど)、統計翻訳する人はあまりそのあたりは使わないという歴史的経緯があったのかなと思う。

それで上記のブログに戻ると、残念ながら

これではいくら「翻訳を改善する」のボタンから「free itemsのfreeは『自由な』ではなく『無料の』ですよ」って報告しても、根本的なところでの「改善」が望めないのでは、と思うのですが。

というのはたぶんその通りで、いくら指摘しても現状では改善するとかしないとかは言えない(ルールベースだと指摘の反映もしやすいのだが、統計ベースだと指摘されてもどう直したらいいのか自明ではない)ので、βというよりはα段階のものだと宣伝したほうがいいんじゃないかな……