今日は今学期最後の定例の論文紹介。スライド
- Xuanli He, Gholamreza Haffari, Mohammad Norouzi. Dynamic Programming Encoding for Subword Segmentation in Neural Machine Translation. ACL 2020.
これは、Byte Pair Encoding (やそれから発展した BPE-Dropout)とか SentencePiece のようにサブワードを求めて分割する手法があるが、これは最終的な翻訳精度が上がるような分割を求めているとは限らないので、動的計画法を使って最終的な翻訳が良くなるような分割を求める、という話である。BPE はグリーディーに分割を求めるのであまり良くないのでは、というのは2017年くらいに問題意識として持っていたのだが(B4 の卒業研究のテーマ案として出したこともある)、その後 SentencePiece だとか BPE-Dropout だとか確率的に分割を求める手法が登場して、やっぱり BPE だと良くないよね、というのが明らかになったので、納得していた。それがさらに DP できれいに解けるという話で、おもしろかった。ポイントは DP のところというよりは、目的言語の情報を使って原言語の分割を決めるというところで、最終的なタスクに応じて適した粒度が異なる、ということが経験的に示されている、ということだろう(そのため、手法としての使い勝手は良くない)。こういう研究を地道にできるとよいな。
午後の研究会は博士後期課程の学生の公開期末評価の発表練習。博士後期課程の学生なので、時間配分以外には研究内容としては特にコメントすることはないのだが、この半期に取り組んだ内容と、博士論文全体のスケジュール感、そして今やっている内容がどういう位置づけか、ということを盛り込んでほしい、ということを伝える。修士論文だと研究テーマ1つなので、そのテーマについてだけコメントすればいいのだが、博士論文だと複数の研究テーマをやる必要があり、それらをまとめ上げて形にしていくマネジメント能力も必要なので、それに対応するような形で審査委員からのコメントが来るのである。
午後はオフィスアワーで色々話を聞いたりしつつ、都の職員の方々とミーティング。他大学の研究者も含めていろいろ比較検討した上で自分に白羽の矢が立った、というのはありがたいことだし、担当の方々はちゃんと話ができそうだったので相談に乗るつもりだったが、結局タダで(=都立の大学の教員だから)Python のプログラミングしてくれる人がほしいみたいな依頼だったので、お断りする。特に専門知識もない分野で変なことをして悪目立ちすると困るし。以前(NAIST 時代)別の機会でも、専門分野ではない話を招待講演でしてほしい、とある方からゴリ押しされたことがあり、少し迷った末に専門ではないとお断りしたところ、その後その人が自分の悪評を流されているというのを知って残念な気持ちになったのだが、変な義侠心あるいは功名心で中途半端な仕事をするよりはましだと思うので……。どの研究者も専門分野以外は素人である、というのが適切な認識だと思うし、非専門家に頼まないといけないくらい切羽詰まっているのは職員の方々も大変だな、と思ったりする。
ちなみに、都立の大学なので、このような話は年に1回程度来る(が、まだ1回も実現に至っていない)。今回は知事から指示が出てそういう人を探しているという話で、やりたいこと自体はタイミング的にも内容的にも意味のあることだと思うのだが、まだ予算がつけられないので、予算確保のためのパイロットタスクをやってくれる人がほしい、ということなのかなと思ったりする。専門家に依頼するにしても、依頼するための知識が必要であり、それを見繕うのも大変なのだろうな……。