N-gram-based Machine Translation

新しい Computational Linguistics のジャーナルが来ていて N-gram-based Machine Translation が載っていたのでちょっと読んでみる。このグループは今年の EMNLP で Statistical Machine Reordering という論文も出していて、それの元になったデコーダがこの N-gram based SMT システムだということだ。

N-gram based といっても基本的にはこれも語順がほとんど同じ(大きな並べ替えは起こらずローカルな並べ替えしかない)言語対で階層的な翻訳フレーズを取ってくるという話に見えるのだが、けっこうシンプルに作ってあるのがよいかも。ちなみにこの N-gram based SMT システムは GPLMARIE として公開されている。(しかしコメントがスペイン語で書かれているので泣ける)

みんないろいろ考えつくものだなあ。それぞれのグループが別々のアプローチで同じ問題に取り組んで(うまく行ったり行かなかったりして)いるのがおもしろい。