朝起きて国際会議(ワークショップ)の原稿のコメントを返す。英文校正に出すタイミングがよく分かっていないが、世の中に出る前に一度はどこかで見てもらわないと……
出勤して同じく国際会議の原稿にコメントを入れる。こちらは〆切が1週間延びたようで、少し余裕が生まれる。しかし採択結果の通知までの期間が変わるわけではないので、査読をする人が大変なのではなかろうか?
昼過ぎにサーバの管理。GPU を2枚追加する。今年度に追加したのはこれで8枚である。年度内にあと10枚追加予定だが、そろそろ限界のような気もする(といつも言っているが)。年度末に奪い合いが発生することが目に見えているので、早めに動いておきたいのだが、予算の使える時期の関係で動けないのが悩ましい。ぼやぼやしていると GPU の確保が難しい、という別の問題もあるし……。
午後はさらに別の国際会議の原稿の添削。よくよく考えると4本の原稿を同時に見ないといけないので、思ったより大変。9月に入ったら余裕があると思っていたが、そんなことはなかった……。
そういえば、NLP 若手の会シンポジウム(YANS)の以下の発表で B4 の学生が奨励賞を受賞したという連絡をもらう。これまでにも受賞したことはあるが、ハッカソン賞ばかりであり、YANS で奨励賞を受賞するのは初めてのことなので、嬉しいことである。
- 黒澤道希, 山岸駿秀, 松村雪桜, 小町守. 活用情報を用いた日英ニューラル機械翻訳.
この研究、アイデアは単純だが特定の状況ではかなり精度が上がる、というような結果で、それを評価してもらったのかな、と思ったりする。実は元々やろうとしていたテーマは文法圧縮を用いたニューラル機械翻訳の高精度化で、文法圧縮という手法を用いることで未知語が減って精度が上がるのでは、という着想であったが、少し手を動かしてみるといくつか問題があることが判明したので、急遽テーマを変更したところ、これでも結構うまくいくことがわかった、という経緯である。
動詞や形容詞の活用を考慮したモデルは、以前も派生文法を用いて単語の分散表現を学習する、というアイデアを試したことがあるのだが、そもそも日本語の単語の分散表現を評価するデータセットが存在しないので、データセットを作るところから研究をスタートした。データセットの構築自体は問題なくできたのだが、派生文法を用いた学習モデルの部分はどうやってもうまくいかず、結局単語の分散表現の評価タスクの仕様上、このモデルではうまくいかないのかも、と思って断念したのだが、こんな形でも派生文法的なアイデアがリバイバルできてよかった。(ニューラル機械翻訳的には、述語の部分だけこれで少し良くなっても、全体として精度向上につながるのか不明であったが、予想外に向上するようである)
あと、手を動かすのが速いと、あるアイデアがうまくいかなくてもすぐ次のアイデアに挑戦できるので、こういうサイクルで研究できるといいな、と思ったりする。結局思いついたアイデア全部がうまくいくわけではないので、とにかくサクッと手を動かして、だめそうならすぐ次に行く、ということができると、どこかでヒットあるいはホームランが出るので、悩む時間があったら実験してほしいな、と思ったりする。
また、実装能力がそれなりにないと、手を動かして結果がダメなときのリスクが無視できなくなるが、その場合は研究テーマ自身をあまり開発力に依存しないような課題に変えておくか、あるいはそのような研究テーマで保険をかけた上で難易度の高いテーマに挑戦したりすることを勧めている。自分自身、研究テーマについて難易度の観点から誰かにとやかく言われるのは嫌だったので(卒論や修論のテーマについて、それはやめとけ、よく考えろ、とよく言われた)、学生の立場では言われたくない気持ちも分かるのだが、指導教員はそれでも言う必要があると思っている(指導教員でなければ、アドバイスする方も責任はないし、学生も聞く義理がないので、そんなこと気にしなくていいだろうけど)。
そういえば東北大学の乾研が YANS の発表16件(うち2件が奨励賞受賞)というのは明らかにヤバい数。[twitter:@chokkanorg] さんが8月1日付で東工大に栄転されたので、来年以降はまた少し数が減るかもしれないが、うちは4件の発表でも青息吐息なのに、ものすごい。YANS に行った学生の話では、他大学の学生から「学会でバンバン発表しているのは東北大乾研と首都大小町研くらい」と言われた、と伝え聞き、うちが乾研と並び称されるのはおこがましい、ということと、NAIST 松本研の方が半端ないクオリティの研究を連発している(ただし、学生数からすると確かに発表の量は多くない)、ということを補足したのだが、質と量を同時に満たすのはすごい。
ちなみに、うちの研究室は今年が一つのターニングポイントで、今年の前半までは研究室のメンバーの数や投稿数は単調増加であったが、今年の後半からは研究室のメンバーの数も投稿数も絞っていく予定で、これからの5年でどこまでトップカンファレンスで通用する研究ができるような研究室になれるかが勝負だと思っている。一気に数を減らすことはできないが、徐々にメンバー数を現在の2/3、投稿数(投稿率)を現在の2/3にすれば、全体では現在の2倍くらい研究のクオリティを上げることができ、常勝グループにできるのでは、と目論んでいるのである(メンバー数と投稿数が現在の1/2〜1/3だったころまでは、ほとんど全部通っていたが、急激に拡大して小町の対応能力を超えてしまったため、過半数が通らないようなクオリティで出さざるを得なくなってしまっていた)。