データ

shuya-a さんが「外部からもらうデータ(コーパスとかなんだとか)は基本的に正しいデータだった試しがないので自分で前処理してから使っている」と言っていた。そんなもんか。

機械翻訳勉強会では hideto-k さんが「国も1億円くらい出して対訳コーパス作ればいいのに。1億円なんて安いもんでしょ」と言っていた。たしかに企業とか研究所はけっこうパラレルコーパス(1文に1文が対応づけられているコーパス)持っているらしいのだが、金が絡んでいるのでそういうデータは表に出てきてくれないのである。そういうわけで国の金でフリーに使えるデータベースを構築するのは有意義なことではないか、ということであった。

そのとおりだが、やはり物事には優先順位というものがあるので、アメリカから見て日本が仮想敵国にでもならない限り日英の機械翻訳にそんなお金が流入したりしないだろうなあ。バブルの前は日本バッシングがあったが、その後日本を素通りして他のアジアの国に行ったりする日本パッシングがあり、いまはもう日本なんて相手にされていない日本ナッシングだ、とまで言われるような時代。(この3つは日本語だからきれいに対応して語感がいいのだけど、元の英語だと全部違う発音だな) 政治力も重要か。