朝早めに出かけるため、散歩は断念。涼しいので、午前中に2人で行ってもらうことに。散歩すると一日気分がいいのだけどな〜。散歩しない日は、仕事をした感満載……。
午前中は受験生の研究室見学と研究に関する相談。研究室のウェブページをよく読んでくれていて嬉しいのだが、一般的に大学院を受験するなら、どういう研究をしている研究室か、そして自分はどういう研究テーマをやりたいのかは、事前に考えておいてほしい(特に後者)。他にどういう大学のどういう研究室を受けたのか聞いても、教員の名前すらあやふやだと、うちの研究室もそういう中の一つであるように思ってしまうし……。
そういえば、うちに来る受験生がやりたいと言う研究テーマのトップ3は
- 対話
- ビッグデータからのマイニング
- 感情推定
なのだが、対話は一からシステムを作るのが大変だと思われるので、博士後期課程に進学するつもりの人でもないと、お勧めしない。学部で就職する人が卒業記念として人工無能的なものを作るならいざ知らず、まともに動くベースラインのシステムを一通り作ってから提案手法を実装しないと研究にならないので、修士の2年間でベースラインを作るだけで(もしくは単に動くものを作っただけで)終わってしまいそう、ということである。(これまで見た受験生で「やってもいいんじゃないかな?」と思ったのは[twitter:@keiskS] くんだけである)
また、ビッグデータマイニングも、割と人気のあるテーマなのだが、データが大規模になると、たとえば単にデータに含まれる単語 n-gram 数をカウントするというような単純なタスクですら、ナイーブな手法があっさり動かなくなるので、アルゴリズムとデータ構造やデータベースに対する理解とプログラミング能力が必要である。そのあたりが分かっていない人が迂闊に手を出すと、1回の実験を回して結果が返って来るのが数日後になったりし、全く研究をスピーディーに進めることができない(研究の最初期は、1回の実験にかかる時間はせいぜい1時間未満にして、結果を見ながら細かく調整したほうが効率がよい)ので、これも情報科学の基礎知識に自信のある人しかお勧めしない。もっと言うと、自然言語処理の研究室でビッグデータの研究をするなら、自然言語処理の知識も必要となるので、研究室に来て2年目以降の人がやるならよいが、1年目の人が(面倒を見てくれる先輩もおらず)手を出すと、結局研究テーマごと捨てることになる可能性が高いので、よく考えた方がいい。
感情推定はこの中でも比較的1-2年で研究の形になる手ごろなタスクでよいと思うのだが、もしかするとタスクが適切というよりは、「対話」「ビッグデータ」のように自然言語処理の勉強をほとんどしていない人でも「こんなことがやりたい」と言える大きなくくりのタスクではなく、多少は勉強してみないと存在すら知らないタスクなので、ちゃんと「自然言語処理の研究をしよう」と真面目に考えてくれている人かどうか、という違いなのかもしれない。
昼過ぎに研究の進捗ミーティング。インターンシップに行っている人が多いので、2人だけ。来年はM2の人が5人になるので夏でも賑やかになると思うのだが、来年は就職活動が後ろにずれるので、8月は就職活動中でいないかもしれないか……(いまのM1の人たちは、問題なく就職先が決まりそうだけど)。
研究に関して、コーパス(たとえば Wikipedia)における特定の部分文字列の出現回数を計算するプログラムを書く必要があるのだが、単純には接尾辞配列を使うのだろうか? 効率を考えなければいろんな方法があると思うのだけど……(さすがに毎回コーパス全体を検索するのは論外として)。
あと、word2vec を使った実験結果などを見せてもらう。自分で使ったことない手法やツールの話を聞くのはおもしろい。ただ、やはり word2vec のアルゴリズムがどうこうというよりは、何を単語とみなすか、そしてどのコーパスからモデルを構築するか、のほうが重要で、細かい前処理で結果がかなり変わりそう。
午後は高間研究室の博士後期課程の学生の公聴会。これまでも、貴家研究室の学生の公聴会など参加したかったのだが、なぜかタイミングが合わず、一度も首都大の学生の公聴会に参加できていなかったので、参加できてよかった。首都大のシステムデザイン研究科では、指導教員が主査で、副査は学内の人でよいものの、学外の人を1人は含める暗黙の習慣があるらしい(大学・研究科によって、指導教員が審査委員にはなれなかったり、学外の人を必ず入れないといけなかったり、いろいろなケースがある)。
やはり博士後期課程の学生だけあって、発表にも分かりやすく、かつ聞きごたえがあって楽しかった。自分は副査でもなんでもなかったが、コメントを言ってみたり。博士の学生は、どこの大学でもちゃんと研究している。となると、研究がしたい、あるいは研究が好き(もうそろそろ論文を読まずに実験しようよ、と言いたくなるくらい、毎日論文を読むよう)な学生に研究室に来てもらえると、よいのかな……。
松本研は博士の学生もたくさんいたし、博士に進学したいという学生も多く、自分が入学したときは研究室ができて13年目だったが、すでにそんな雰囲気だったので、理工系の大学院(研究室)はそういうものだと思っていたのだが、何年もかけてそうした研究室になっていったんだな、と改めて思う。高間研もちょうど13年目だそうで、10年かけて研究室の文化ができていくのだろう。逆に言うと、松本研は自分の前には10年ちょっとしかないのに、あれだけの数と質の人材を大学や研究所、企業に輩出しているというのは、ものすごいことである。
Google Japan で働く日本人は野心に欠けるという記事を Twitter 経由で知ったが、NAISTも当時は無名だったからこそ(いまも一部の分野の人たち以外には知られていないだろうけど)、意欲溢れる人たちが集結したのだろうか。首都大も知らない人が NAIST 並みに多いし、有名な大学に行きたい、という人は東大や東工大、京大などに進学してもらえるとよいと思うので、首都大を有名にしよう、という、気概のある人にぜひ来てほしいものである。
夕方から夜にかけて、NLP(自然言語処理)若手の会のお仕事。20時近くまで大学にいたのだが、今年度この時間まで大学にたのは初めてだと思う(一番遅かったので、大学院入試の日の19時)。明日を休みにするので特別に遅くまでいたが、発表のプログラムを作るのもけっこう時間がかかる(プログラム作成は委員長の仕事)。松本先生が ACL(自然言語処理の最大の国際会議)のプログラム委員長をされていたとき、発表のスケジュールを組むのに3日間連続で徹夜した、とお聞きし、大変なものだと思ったものだが、それとは規模が1/100くらいの若手の会シンポジウムですら(徹夜こそしないが)数日かかるので、運営の仕事は意外に時間のかかるものである。