ハイリスクでも飛び込める若いうち

午前中は自然言語処理の古典論文紹介。以下の論文を紹介してもらう。

  • Chris Callison-Burch, Philipp Koehn, Miles Osborne. Improved Statistical Machine Translation Using Paraphrases. NAACL 2006.

フレーズベースの統計的機械翻訳はデータスパースネスの問題があるので、原言語側で言い換えを用いることでデータスパースネスの問題を解消しよう、という論文である。実験結果でも効果は示されているが、最初に使える対訳データが増えれば増えるほど効果が小さいので、数百万文対訳コーパスが使えるような言語対では恐らく意味がなく、かつフレーズベースの統計的機械翻訳はニューラル機械翻訳に取って変わられてしまったので、歴史的意義はあるだろうが、現在ではあまり有用性がないように思われる。

そもそもニューラル機械翻訳では原言語側は分散表現を用いるのでデータスパースネスの問題はないかあるいは小さい(フレーズベースの統計的機械翻訳のように、フレーズテーブルに入ってないから翻訳できない、というようなことがない)し、仮に言い換えに効果があるのであれば目的言語側ではないか、という気がする(意味的には同じなのだけど、こちらの表現を選んだ方が都合がいい、というような設定のときに使う)。

新しい論文を読むより古い論文を読んだ方が研究のアイデアを得られることが多いような気がするので、今後も積極的に活用していきたい。(みんな新しい論文をこぞって読んでいるのだが、読む論文が同じだと思いつくアイデアも似通ってきてスピード勝負になって勝ち目が薄いので、スピード勝負にならないところで戦った方がよいのである)

昼から共同研究の定例ミーティング。今年度何をするかという意識合わせである。いろいろやりたいことはあるのだが、入ってくる学生が不確定だとこのタイミングで決めるのが難しいという問題がある。

ともあれ、新入生向きではない研究テーマというものも存在するので、新入生を入れるなら研究テーマはちゃんと見極めた方がいいと思っている(手を動かせば一定の成果の出るタスクと、手を動かしても成果が出ない可能性のあるタスクとあり、研究のトレーニングという意味では前者をやるといい)。

午後は教授会等々大学運営業務。今年度になって減ったかな(減るかな)と淡い期待を抱いたが、そんな様子はなくどんどん積み上がっている印象。いいニュースとしては、一つ一つのタスクにかかる時間は減ったということだが、悪いニュースとしては、一つ一つのタスクの納期がやたら短くなったということで、常に重たいタスクを長期間引きずって鬱々とする(ただしタスクはそんなに増えない)のではないが、お声がかかったら他の仕事を全て放り投げてやらないといけないタスクが次から次に降ってくるので、それなりに余裕を空けていてもすぐ埋まるというか空けておかないと自殺行為なので、去年までとは違う意味での大変さがある。

夕方は少し進路相談に乗る。学生のうちはいろいろ悩みは尽きないと思うが、悩めるうちが華(悩むだけの余裕と、やり直せるチャンスがあるということ)なので、精一杯悩むといいと思っている。人生は短いし人生は長いので、やりたいことがあればそれに向かって進むのがいいと思うし、ちょっと別のことをしていてもどうしてもやりたいことはきっと戻ってきてしまうので、人間万事塞翁が馬である(家族がいたりすると方向転換できないことも多いが)。

準備学科会議が19時過ぎに開始だったのだが、始まりが遅いのは結構しんどい。一応木曜日は常に会議が入るので、遅く帰ってもいいように調整はしているのだが、そもそも毎日22時前には布団に移動しているので、帰宅して22時近いとぐったりである……。