リソースは深層学習でも必要

今日はNL研（情報処理学会自然言語処理研究会）の2日目。午前中から午後にかけては招待講演が2本である。それぞれ実況したものをまとめた。

前半の、東北大学の岡谷先生による画像処理における深層学習（deep learning）のお話は大変示唆的で興味深かった。畳み込みニューラルネットワークの気持ちが少し分かった（が、画像処理で使われる一般的な畳み込みニューラルネットワークは、やはり自然言語処理とは設定が違う、という気がする）。あと、物体認識で一躍有名になったのは、深層学習（だけ）の成果ではなく、ImageNet という大規模データセットのおかげで、そういうリソースがない（あるいはクラウドソーシングできない）タスクでは依然性能を上げるのは難しいのではなかろうか。結局教師データが重要である、という結論に見える。同じく教師データを使う他の手法よりよくできる、というのは利点だが、そこの貢献よりは、生成タスクでそれっぽい出力が出せるようになってきた、というほうがインパクトがあるように思うのである（これも、データセットありきだろうが）。

後半の [twitter:@akinori_ito] 先生による英語教育・学習支援のお話もとてもおもしろかった（たくさん質問してしまった）。最近対話の研究に興味があるので、こういうアプリケーションも大事だなと思うのである。誤りを認識するのが難しい、という話があったが、自動認識が間違っても大きな問題にならないような設定で使えばいいのではないか、と思うのである。（認識結果を全部出力したらおかしいところが可視化されてしまうが、応答がまともな限り、全部出力する必要はないので）

お昼はNL研の運営委員会。会場の都合で会議室の話し声が会場に筒抜けであったようだが、結果オーライか……。Skype 参加が可能になったのだが、10ヶ所近くから接続しているせいかなにか、会話するのが困難だったので、もう少し別のやり方のほうがいいのかもしれない。経験上、大人数だと Skype より Google Hangout のほうが安定している気がする。

一般セッションはどの発表も見応えがあった。個人的なベストペーパーは東北大乾・岡崎研の田さんの「対数的共起ベクトルの加法構成性」で、単語と単語の共起ベクトルの計算における理論的な考察で、どういうベクトルは性能の上界が存在するか、というような性質を明らかにした研究である（式の近似に若干疑問が残るが）。[twitter:@iwnsew] さんが自然言語処理の若手シンポジウムで同じく理論的な研究を発表したところ、あまり学生の人たちや企業の人たちには受けなかった（その後 WWW のフルペーパーになったり、DEIM の最優秀論文賞に発展して行ったりした）ようだが、それと同じく研究者には受けるという話なのかもしれないが……。

そういえば松本先生から「研究費取れてる？」と（なぜか）聞かれたので、いや取れてないですよ、という話をする。共同研究もあるし、だいたい学生数の増加も止まったと思われるのでそこまで研究費には困っていないのだが、国際会議にちらほら採択されるようになってきたので、そろそろ本気で取りに行かないといけないのかも。取るにしても、単年度100万円以上のものでないと、時間をかけるメリットが微妙（研究計画書を書く手間を考えると、企業の方に共同研究をお願いしたほうがいい）なので、数を絞って本気で書くべきなんだろうなぁ。