ベースライン

IWSLT (International Workshop on Spoken Language Translation; 話し言葉の翻訳についての国際ワークショップ) という機械翻訳のコンテストに参加していた。参加といってもデータを web 経由でもらって web 経由で送り返すだけである。(だから奈良からの参加)

基本的に旅行の会話の対訳文をいくつか(今回自分が参加したの日本語から英語への翻訳なので日本語←→英語の40,000文ペア)与えられて、それを使って作った翻訳システムを、500文のテスト文(日本語)について通してみて、後日各チームに結果が知らされるというコンテストである。

本来は7月全部これに使うつもりだったが、諸事情によりこれに取りかかれたのはオーストラリアから帰ってきてからの2週間程度なので、もっと時間があったら(といってもこのコンテストにはあと2週間くらいほしかったくらいだけど)やりたかったことはほとんどできなかったのだが、けっこう勉強になった。

月曜の0:01がテスト文のリリースで、今日の23:59がテスト文を翻訳した結果の締め切りだったのだが、ぎりぎりまで粘って調整していたので(しかも最後の調整は間に合わなかったのだけど)、10分前に送ろうとしたのに結果の送信先のサーバが混んでいてつながらずとても焦る。結局締め切りを過ぎたあとの0時半くらいにつながったのだが、受付時刻は最初にボタンを押した時間(23:57)だったので、いつもながり締め切りぎりぎりであった。いったんテスト文をもらったのに結果を送信しなかったら今後二度と同じ組織から IWSLT に参加できなくするよ、という注意書きがあったので、どうなることかとはらはらしていた。あー怖かった。

今回のずっと悩んでいたのは、元々の機械翻訳システム(ベースライン)から、性能がよくなると思って入れた修正を加えているのだが、その変更をするとどうしても元々のシステムより全体の性能が悪くなるのである。どういうところを見たら「(全体としてパフォーマンスが出なくても)よくなっているはずだ」と考えることができるか(逆に言うと、数字はよくなったと喜んでいてもなんで上がったのか説明がつかないとあまり意味がない)とか、いい経験になった。

最後は時間がなくてベースラインの数字を調べることができなかったのだが、今度時間があるときにまた走らせてみよう…….