統計的機械翻訳の研究を始める人に向けた3つのアドバイス

晴れてはいるが気温はそこまで上がらず、過ごしやすい一日。研究室は建物の7階にあるので、窓を開けると風が入ってきて気持ちいい感じ。

夏休みくらいにインターンシップをしたい人はそろそろ動く時期のようで、調整が始まったりしているようである。自分もあれやこれやとメールしてみたり。M1の夏のインターンシップだと、入学してからの数ヶ月で自然言語処理の基礎知識や論文の読み方については勉強会や研究会で伝えることができるものの、研究のやり方に関してはほとんどタッチすることができずに送り出すことになるので、(研究所系でのインターンシップだと) ちょっと心苦しい。たぶんそういう事情も斟酌してくださっているのだろうが……。

1回外部発表をすると、どういうふうに実験をするかとか、どのように原稿を書くかとか、いろいろ一緒に付き合うことができるので、M2以降だと安心してお願いできるのだが、M2だとすでに就職活動が終わってしまっていて、優秀な人を青田買いしたいという意味では遅いので悩ましい。研究職を志望するかどうか迷っている人は、社会経験として一度見てみるのはよいと思うのだが……。迷いがない人はむしろインターンシップに行かず大学で研究を進めるほうがよい気もする (面倒見てくれるスタッフもいるし、夏休み以降も同じ研究テーマに引き続いて取り組むことができるし)。その結果研究が楽しくなって博士後期課程に進学したくなるかもしれないが (笑)

お昼、[twitter:@tarowatanabe] さん、松本先生、Kevinさんの4人でランチ。NICTの在宅勤務制度についてお伺いしたり。NAISTの教員は裁量労働制で、1日1秒でも大学にいたらその日は出勤扱いになるようで、NAISTに住んでいたときはそもそも家が敷地内なので在宅勤務するメリットが全く感じられなかったのだが、いま通勤に1時間5-20分かかるようになり、在宅勤務したくなってくる。(ちなみに裁量労働制だとさぼり放題のように聞こえるかもしれないが、そもそも残業代が出ないだけで、時間的には圧倒的に超過勤務だと思われる)

昼一でKevinさんがホストとなり、Talk Series ということで、@tarowatanabeさんに 統計的機械翻訳の招待講演をお願いする。せっかく統計的機械翻訳の世界的第一人者の人が来てくださっているのに、M1の人たちは授業があるということで、授業に行ってしまったりして、残念な感じである。時間割的に仕方ないのかもしれないが……。(まあ、入学直後に突然聞いてもちんぷんかんぷんだろうし、ちょっと自然言語処理の基礎知識がついたM2以上の人が聞きに来るくらいで結果的にちょうどよかったのかもしれないけど)

先日の言語処理学会でのチュートリアルなどをベースに話してくださったが、最後1枚の特別なスライドで、これから統計的機械翻訳の研究を始める人のために、という内容を話してくださったのが興味深かった。

まず、機械翻訳はいま自然言語処理でもっとも盛んな研究分野の一つで、メジャーな国際会議に年間50本論文が出てくるので、とにかくそれを全部読むこと。読まないことには研究もできないし、もっと優れた研究者の人たちが必死に書いた論文の年間50本も出てくるので、読めば自分も賢くなって楽しくなる、と。

次に、統計的機械翻訳の研究の中で、手頃なサイズのタスクを見つけて、その部分問題を極めてほしいということ。2000年代以降の統計的機械翻訳では、オープンソースのツールやオープンに使える標準的な対訳コーパスが整備されてきたので、アライメントの問題やフレーズ・パターン抽出の問題、あるいは翻訳結果の最適化の問題など、部分問題に切り分けることが容易になったし、逆に言うと最初から全体をやろうとするのは無謀なので、特定の問題に特化したほうがいいと。GoogleMicrosoftのような巨大な組織ならいざ知らず、小さな組織は小さな組織なりのやり方がある、ということである。

最後に、研究をするならぜひ言語に依存しない手法を研究してほしい、そのほうがインパクトもあるし、そもそも特定の言語対に特化したような手法では論文も通らないし、実際そういう論文は読んでいてもつまらない、とのことである。エンジニアリングを考えると個別に言語に合わせた作り込みも必要なのかもしれないが、ここは小さな研究所なり大学なりでトップレベルの研究を続けていく秘訣なのかもしれない。

Microsoft Research にいたときは、毎週のように研究者がやってきて講演をしてくれたり、その前後に直接研究の相談に乗ってくれる時間を作ってくれたりしていて、あれはすごい環境だったなぁと今でも思い返すのだが、こうやってNAISTでもKevinさんが (奈良だとさすがに毎週とは行かないが、毎月くらいのペースで) こういう機会を作ってくれて、とてもありがたいことである。

そういえばインターンシップ機械翻訳で思い出したが、[twitter:@katsuhitosudoh]さんがNTT研究所 (京都) で機械翻訳に関する研究インターンを、[twitter:@Yuki_arase]さんがMicrosoft Research (北京) で同じく機械翻訳に関する研究インターンを募集されているようである。興味ある方はコンタクトされてみては。

夕方、論文の添削。情報処理学会はなんで投稿用のスタイルファイルと査読用のスタイルファイルが異なるのだろうか?分ける理由がほとんどないような気がするのだが……。とある論文の査読結果を見てみたら、「この論文はフォントが整っていなくて読みづらい。引用もプロっぽくない。云々。著者たちはもしかしたらWordで論文を書いたのかもしれないが、ちゃんと読みやすくしなさい」と書かれていたりして、見栄えで印象も違うものだなと考えさせられる。(ちなみに当該の論文はLaTeXで書いたものなのだが)

今日は妻の帰りが遅いということと、明日は天気がよいようなので2人でドライブしようかと思って車で帰宅。自宅の近くに車を置いていないとこういうところが手間なのだが、逆に言うと月に1回もそういう機会がないので、やはり今の場所に住んでいるかぎり、ほとんど車は必要ないのだろうなぁ。