NMT 時代で変わる基礎知識

朝起きて学会のお仕事。7月の研究会、ホームグラウンドでできるのはいいのだが、なまじっか家から通えると、保育園の送り迎えがあったりするので、調整が難しい。妻が実習時間中は毎朝午前6時に出勤するという状態もどういうことかよく分かったので(朝に娘の対応ができないのはもとより、夜も早く寝ないといけない)、実習期間中は泊まりの出張はおろか帰宅が遅くなるのも厳しい、ということである(一応やむを得ない場合は実家に送り迎えは頼めるが、妻が寝る時間までに帰宅することを考えると、懇親会を開催しても最後までいられない)。

午前中は古典論文紹介で以下の論文を紹介してもらう。

  • Koehn et al. Statistical Phrase-Based Translation. NAACL 2003.

これは自分も何回も読んだので思い出深い論文で、フレーズベースの統計的機械翻訳でよくリファーされる論文である。最近の論文とは違い、どこが貢献か明確にかかれていないので分かりづらいが、単語アライメントからフレーズ抽出するヒューリスティックスを提案しているところが主要な貢献である。Marcu and Wong (2002) の方が同時確率を用いたフレーズ抽出で、モデル的にもエレガントであるが、計算が重いのである。この論文では計算が軽く、かつ精度も悪くない手法を提案しており、いろんな言語対で有効性を示している(先行研究とは抽出されるフレーズ数を揃えて比較した方がいいと思うが)。

実はこの論文だけではフレーズベースの統計的機械翻訳の全体像がよく分からず、少なくとも Och et al. (1999) を読む必要があり、そちらはそんなに分かりやすくない、という欠点がある。あと、そもそもフレーズベースの統計的機械翻訳であれば、チュートリアル資料や教科書もふんだんにあるので、原論文を読むよりそちらを読んだ方がいいだろう。英語で読める教科書で一番分かりやすいのは Koehn の Statistical Machine Translation、日本語で読める教科書で一番分かりやすいのはグラムさんの書いた「自然言語処理の基本と技術」だと思う(後者は今年2刷が出て、それまでに判明した誤植が直っている)。

Statistical Machine Translation (English Edition)

Statistical Machine Translation (English Edition)

自然言語処理の基本と技術

自然言語処理の基本と技術

自分が2005年に M1 で統計的機械翻訳を勉強し始めたときは、自分に数学的(統計的)知識がなさすぎたせいもあったが、論文を読んでもちっとも理解できず、D3 くらいになってようやく腑に落ちたものであるが、今は解説がたくさんあっていい世の中になったと思う。統計的機械翻訳の問題は、コンピュータサイエンスのあらゆる知識(統計、離散数学オートマトン、データ構造、アルゴリズム、データベース、情報理論機械学習など)を総動員するので、基礎知識がないと手も足も出ないという点である。ニューラル機械翻訳になって、このあたりのほとんどの基礎知識がほぼ不要になったというのは革命的で、参入障壁が一気に下がった感がある。

逆に統計的機械翻訳時代とニューラル機械翻訳時代とで何が共通しているかというと、質の高いデータをいかに大量に集めるか、質が高いとはどういうことか、評価はどのようにするか、というような点で、統計的機械翻訳以上に自然言語に対する知見が求められるように思う(機械学習以外のコンピュータサイエンスの知識の重要性が相対的に下がったせいだが)。

少しカルチャーショックだったのが、機械翻訳グループで1年以上機械翻訳の研究をしているメンバーが IBM モデルを知らなかった(より正確に言うと、IBM モデル1、モデル2等々が、unigram、 bigram 等を用いた IBM モデルだと思っていた)ことで、確かにニューラル機械翻訳時代の今は IBM モデルを知っていることはそんなに重要ではないか、と思ったりする(たとえば、機械翻訳の研究をしていない修士の学生が知っているべきは、IBM モデルより NMT だろう)。ただ、さすがに機械翻訳グループであれば、IBM モデルでアライメントを初期化したりすることもあるので、基礎知識として知っていたほうがよいだろうな。

午後は教授会から準備学科会議のコンボ。8月の大学院入試はすでに来年度の新組織での入試になるので、新しい学科でどのようにするか、という詳細を決めておかないといけない、というわけである(受験生に告知しなければならない、試験科目等の概要は既に決まっているけど)。新しい学科でのやり方は、情報通信システムコース所属の教員が最も多いので、基本的に情報通信システムコースのやり方を踏襲することがほとんどだが、ところどころ他のコースのやり方を参考にして変えたり、そうでなくてもこれを機に変えたりすることがあり、少しずつこうやって変わっていくのかな、と思ったりする。

夕方は準備教授会。今回は南大沢とポリコムでつないで行ったが、特に問題もなかったようだし、もうこれでいいのでは感がある。色々と議論をする必要がある委員会は直接顔を合わせる意味があるが、教授会は議論の場というよりは下の委員会から上がってきたことの最終確認に場になっているので、開催コストを下げた方がいいと思うのである(ただ、そういう教授会でも紛糾する可能性がないわけではないので、やはり安全側に倒すあるいは紛糾しそうな議題がある場合は現地開催になるような)。月に2回、日野と南大沢の両方の教員が参加する委員会に出ているが、こちらから向こうに行くのがしんどいのと同様、向こうからこちらに来るのもしんどいと思うので……(授業で往復したりしないといけないなら、なおさら。)

教授会のあと、新学科での授業体系等々についてお話ししたり。現在の情報通信システムコースが設立当初なんとか「情報」と名乗れるようにするという目的で、この教員ならこの科目が教えられる、という供給ベースで作られたカリキュラムであるとすると、来年度以降の情報科学科でのカリキュラムは、コンピュータサイエンスを標榜するなら世界的にはこういう科目をこれだけ揃える必要がある(具体的には ACMIEEEオーソライズしている CS2013 に基づいている)、という需要ベースで作ったカリキュラムなので、来年度以降ようやく他大学の情報系の学科と同列に戦えるようになるかなと思っている。

もちろん教える教員と科目のマッチングも大事で、需要ベースにした結果教育の質が下がると本末転倒なので、5年くらいかけて少しずつ微調整をしていくのだろうけど。(旧コースの学生のために、新学科では消える科目を維持しないといけなかったりして一時的に負荷が高い教員がいたり、今後定年になる先生方がいらしたりする)

来年度が楽しみだな〜。