Philipp Koehn の Statistical Machine Translation

機械翻訳について書いたので、ついでに本の紹介。2007年くらいからずっと in press だった気がするのだが、ようやく先月出版されたので、購入。

Statistical Machine Translation

Statistical Machine Translation

著者の Philipp Koehn は統計的機械翻訳Pharaoh の開発で有名であり、最近はオープンソース(GPL)の Moses という翻訳ツールの開発で著名である。ちなみに、いずれのツールキットも、機械翻訳の世界ではデファクトスタンダード(数年前までは Pharaoh が使われていて、Moses が開発されてからは Pharaoh の座は Moses に取って変わられた)であり、ベースラインとなる手法として広く使われている。

内容的には基礎から応用までしっかりカバーされていてよい。世界中の研究グループはどこがあって誰が研究していてどんなことしているかなんてのも書いてある。基礎の部分はこの本で勉強しなくても IBM モデルの原論文と Pharaoh のマニュアル(けっこう詳しいチュートリアル的なマニュアルがある)を読めばいいのでは、と思わなくもないのだが、擬似コードアルゴリズムやサンプルがたくさん書いてあるので、確かに教科書としてはこれを手元に置いて眺めたほうがいいのかもしれない。

最近の統計的機械翻訳の動きは "Advanced Topics" という最後の3章にまとめられている。Discriminative Training, Integrating Linguistic Information, Tree-Based Models という3章なのだが、正直なところ、ちょっと物足りない。2008年の話まで入っているのだが、「あれ、もう終わり?」と思ってしまう。章末に参考文献がそれぞれたくさん入っているので、それをたどって読めばいいという話ではあるが……(自分が2006年にやっていた研究が言及されているのを発見してびっくりした)

機械翻訳だけで1学期授業できるなら、1回の授業でこれを1章ずつ読む感じで進めればちょうどいいのかな。まあ、そんなことはまずないと思うので、自分で適宜読む、という形で利用されるのだろう。とても基本から解説してあるので、研究者の人はちょっとくどく感じてしまうかもしれないが、学部生でも読めるくらい基礎的な用語についても説明してあり、自習用には最適なテキストだと思う。