階層句を用いた統計的機械翻訳

機械翻訳勉強会で D. Chiang, A hierarchical phrase-based model for statistical machine translation という論文を紹介した。ACL 2005 の Best paper award だったらしい。句ベースの機械翻訳が現在どこまで進んでいるのか知らないが、階層構造を持つような句構造規則を捉えられないのだとすると、筆者が提案するような階層句 hierarchical phrase を用いた方向性は自然な拡張であるように思う。

とはいえ統語的な情報を入れても性能が上がらないというのはなんか問題な気がする。入れ方がまずいだけなのかもしれないけど。

eric-n さんが「そもそもどうして統計的機械翻訳は単語ベースから句ベースに行くのに10年もかかったのですか」と言っていたのだが、自分もこのあたりすごく不思議なものがある。1990年代初頭に盛んになった統計的機械翻訳は翻訳元の言語と翻訳先の言語で(対応づけができている文の)単語間の対応を取って翻訳確率を計算する、というものだったが、さすがに単語が対象だと、文法構造が非常によく似た言語同士でもなければうまく行かない(日本語と英語だと "a/the" の問題とかどうしようもない。これは句ベースでもどうしようもないけど)ので、せめて句くらいを基本単位にするのはすぐに拡張しそうなものなのだが、2000年くらいにならないと句ベースの統計的機械翻訳は出てこなかったようだ。乾先生の言うように計算機の能力のせいなのかなあ。

結局参照すらしなかったが作りかけのスライドがあるので興味ある人はどうぞ。