要約がようやく広く使われる

午前中は職場での健康診断。去年は人間ドックに行っていたので、2年ぶりである。そろそろアラフォーなので、毎年人間ドックでもいいかもしれないが……。

そろそろ新 M1 の研究テーマを決める時期で、いろいろと下準備。内部進学の人は自分で決められると思うので、夏休み明けまで好きに過ごしてもらえばいいのだが(インターンも研究関係のインターンシップであれば、行った先でよい研究テーマに出会ったり思いついたりするかもしれないので、特に夏休み前に動かなくてもよい)、心配は今年入学してきた M1 の学生である。

今年の4月から研究室に来た人のうち、B4 の学生たちは [twitter:@moguranosenshi] くんがみっちり見てくれているのでいいのだが、進捗報告に出ていない M1 の学生たちは他の人のサーベイも聞いていなければ、自分でもサーベイをしていないとなると、自力で研究テーマを決めて動き出すのはかなり厳しいのでは……という気がしている。

去年はこの反省があって、今年の B4 の人は(夏休み後、あるいは大学院に上がるタイミングで一度研究をリセットできるので)夏休みまではメンターをつけて研究してもらうことにしたのだが、M1 からの新入生は最初にアサインしたテーマが修論になる可能性を考えると、ちょっと研究テーマをトップダウンに与えることにためらいがあり、自分で検討してもらうことにしたのである。ただ、サーベイだけはしてもらっておいたほうがよかったかもしれない。まあ、夏休みに入ってから一気呵成にサーベイを始める、という展開もなきにしもあらずであるが……。

午後は SLP(自然言語処理の教科書)とPRMLパターン認識機械学習の教科書)の勉強会。SLPは文書要約の章である。文書要約は、10年前は応用としては地味なテーマ(失礼!)だったと思うが、ここ5年ほどは Gunosy とか SmartNews、Vingow やカメリオのような情報収集系のアプリが広く使われるようになって、一気に自然言語処理の応用の中心に躍り出た感がある。アプローチとしても、重要文抽出などの抽出型の文書要約は最適化問題として定式化することができ、研究も盛んである(現実的には色んなヒューリスティックスを組み合わせるだろうし、実際のアプリケーションに使われるようになるまでは、もうワンステップ必要かもしれないが)。

個人的に注目しているのは生成型の文書要約で、内容を適切に言い換えて(必要であれば構文構造も全然違ったものにして)要約するようなタスクは、ちょうど深層学習の設定がはまりそうに思うので、うまくマッチすればブレイクスルーの一つになるだろう。解決すべき問題は、深層学習の手法では(というか分布類似度に基づく手法では)同義と類義を区別しにくいので、これを区別する仕掛けを思いつけるかどうか(分散表現を用いた推論の機構を実現できるか、あるいは推論をしないで処理する方法が成功するか)、というところがポイントかな。

夕方は実験運営委員会。1時間で終わるかと思いきや、1時間では半分くらいしか終わらず、途中で抜けてきた。主体は助教の方々なので、自分がすることはあまりないのであった(昨年度の幹事なので、昨年度にやり残した仕事の話があるかと思ってオブザーバーで参加したのである。実際、昨年度の積み残しの話が若干出た)。