機械翻訳勉強会今後の打ち合わせ

機械翻訳勉強会の今後の打ち合わせ。

朝起きたとき吐き気がしてまた寝たりして、行けるかどうか不安だったが、なんとか起きて出る。

NAIST 松本研の機械翻訳勉強会は、ドクターの人が2人(eric-n さん、ゆうちゃん)、マスターの人が4人(M2 が kenji-fu くんと jessic-r さんと自分、あとは M1 の shimpei-m くん)で、このうち実際に研究の一部に日本語を入れたら英語を返すような機械翻訳システムを使っているのは eric-n さんと kenji-fu くんと自分の3人だけで、しかもそれぞれルールベースの翻訳(RBMT: Rule Based Machine Translation)・用例ベースの翻訳(EBMT: Example Based Machine Translation)、統計翻訳(SMT: Statistical Machine Translation)と、システムがだいぶ違うので、紹介する論文も参考になったりならなかったりするし、必ずしも研究テーマが機械翻訳でないので進捗報告もなかったりと、いくつか問題点があった。

そこに今学期に入って ling-g さんと hideto-k さんが卒業して抜けてしまったので、開催できるだけの人数を確保することも困難になってしまったりしているので、今回は今後の機械翻訳勉強会の方向をみんなで話し合いましょう、ということで eric-n さんが集めたものである。

結局のところ、みんなで一丸となって取り組めるようなものがあるとよいのではないか、という話になり、それには各システム(RBMT/EBMT/SMT)の出力結果を再ランキングするようなモジュールを作ってはどうか、と eric-n さんから提案があった。確かに松本研でも CJE グループはよく何人かで集まって作業しているので、そういうふうに全員がなにかコミットできるような目標を作るのはいいかもしれない。ただあまりに負担を求めすぎると、そこまで時間が割けない人はいなくなってしまうし、逆にただその場にいるだけでいいとなると(これまでがそうだったのだけど)グダグダになってしまうので、ちょうどいい落としどころが見つかるかどうか、というところだ。

とりあえず来週は eric-n さんが RBMT、kenji-fu くんが EBMT、自分が SMT について、自分が作って/使っているシステムがどういうもので、どういうところに問題点があって、今後どうしていくつもりか、といったことを簡単に紹介し、全員が共通に取り組める問題点の洗い出しをしましょう、ということになった。

来年 M1 で入ってくる人の中に機械翻訳に興味ある人いたら、入ってすぐからこういうタスクに参加してやってもらうとちょうどいいのかも?

そういえばこれまで統計翻訳では Pharaoh というデコーダがよく使われてきたのだが、最近は Moses というものも公開されたらしい。Pharaoh は非商用でないとだめだとかいくつかライセンスに注意点があるのだが、Moses は LGPL とのこと。もう「オープンソースデコーダはありません」とは言えないわけだなー。