夏休みこそ研究を進めよう

朝、論文を添削する。来週月曜が〆切なので最後の追い込みである。

午前中は機械翻訳のワークショップのキックオフミーティング。機械翻訳は研究室の戦略的に重要な研究テーマだと思っているのだが、動作するシステムを持っていないと研究が難しいので、毎年(せめて隔年)メンバーが入ってこないと継続的に研究できないのである。あと、他に何か研究をした上で機械翻訳に取り組むならよいが、最初のタスクが機械翻訳だと、全体像を理解するまでにやたら時間がかかる、という問題もある。

とはいえ、今回ワークショップに参加したいという学生が4人いたので、ブレインストーミングする。既存のツールを使いました、というだけでは研究にならないので、どこか新規性が主張できそうなポイント(研究アイデア)を議論するのである。研究室に入ってからまだ3ヶ月経過していない新入生だと、入学前から興味を持ってサーベイしたりしていない限り、研究になるようなアイデアを出すのは難しいので、昨年度ワークショップに参加したメンバーでどういうネタがありえそうか出して、新入生にその中から興味のあるテーマを選択してもらう、という感じである。思えば NAIST 松本研でもそういうふうにしていた気もするし、B4 だけでなく新 M1 の人も夏休みまではそういうふうに動いてもらった方がいいのかもしれない。

自分も2つほどネタを提供したが、学生からも3つネタが出て、うち1つは割とよい着眼点だと思うし、いい感じ。ただ、こういうときに研究になりそうなネタが出せるかどうかは普段のサーベイにかかっており、サーベイをあまりしない人にネタ出ししてもらっても(もちろん試すことはできるが、論文になるかどうかは先行研究次第なので)意味がないかも……。とにかく研究室のメンバーは全員年間100本程度の論文リストを作成してほしい(そのうちざっとでも目を通すのが30本、精読するのが10本だったとしても、論文リストのプールがないと手も足も出ない)。

午後は SLP(自然言語処理の教科書)と PRMLパターン認識機械学習の教科書)の勉強会。PRML を始めたせいかどうか分からないが、研究室メンバーが数式の意味(そのような手法を使っている動機)を考え始めていて、深層学習勉強会や PRML 勉強会を始めてよかったなと思う。結局大事なのは研究のストーリーであって、それを実現するために数式ではどういうふうに書けばよいか、ということとのセットなので、数式だけ眺めていてもなかなか分からないし、このデータはこういう特徴があるからこういうことをする、という、「なぜ」の部分が大事なのである。そしてこの「なぜ」の部分はあまり体系立てて教科書に書かれていたりしないので、論文読み会などで数式を見て「どういう気持ちが込められているか」を読み解く、という練習をすると、少しずつ体得できるのではないかと。

あとは自然言語処理は対象が言語なので、分野の知識として言語学(日本語と、それ以外)に関する勉強をしておくとよいと思うのだが、何かよい教科書(毎週1回、半期で読み終わるくらい)はないかなぁ。アノテーションをするとき、言語に関する知識がないとちゃんと設計したりタグ付けしたりすることができないと思われるので……。

夕方にはもう一度原稿のチェック。いずれも収束に向かいつつあるが、土日を挟んでしまってどれだけの作業量を確保できるか分からないのが不安点。あまり土日を当てにはしたくないのだが、致し方ない……。