紙を使うことによる可視化

週末に大学が停電になることを忘れていたので、出勤してからサーバの復旧。Mac mini を2台縦に置いているので、最初間違った方の電源を入れていた(メインマシンは先日 Mac mini から iMac にした)……。

午前中は大学院の自然言語処理の授業。TAが来ないのでどうしたものかと思っていたが、インフルエンザになっていたらしい。熱が引いてからも3日間は登校停止らしいのだが、一人暮らしで大丈夫だろうか……(自分も乳児がいるのでインフルエンザウイルスをもらうことはできないのだが)

お昼は Skype でミーティング。直前まですっかり忘れていて、急遽準備したりする。10分あれば準備できるのだが、その10分の確保がままならない。うーむ。

昼過ぎは SLP(自然言語処理の教科書)の勉強会。情報抽出の章。研究テーマにしている人が複数いる章だと、みんな聞くモチベーションが上がるかな?自分が担当に当たってないと欠席する人がちらほら出てきて、研究が本格的にスタートしたから仕方ないかなと思う反面、M1の人はそんなこともないし、ちょっと内容的におもしろくないのかなと危惧しているのである。

しかし勉強会も進捗報告も、自分の研究と一見関係ないように見えることが実はあとで役に立つこともあるし、ちゃんと聞いといたほうがいいのだけど……(こういうの、欠席した人は往々にして自分では読まないが、それが常態化すると、後々大きな差になっていく)。松本研でも、松本先生は「うちの研究室を出るということは、修士でも一通り自然言語処理の知識は全部知っていることを期待されるから、そのつもりで勉強してほしい」と言っていたし、うちの研究室もそういうふうに期待されていると思うのだけどなぁ。

午後は深層学習勉強会。

  • Ronan Collobert and Jason Weston. A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. ICML 2008.
  • Cicero Dos Santos and Bianca Zadrozny. Learning Character-level Representation for Part-of-Speech Tagging. ICML 2014.

を紹介してもらう。後者の論文が個人的には参考になって(前者の論文を参照しているが)、自然言語処理では画像や音声のように深層の畳み込みネットワークは使えるのか?と思っていたら、文字単位の処理で畳み込みを行うことで、たとえば接尾辞・接頭辞みたいな素性を深層学習できる、というストーリーで、得心がいった。逆に言うと、文字レベルの素性は画像における(隣接)ピクセルとの対比でうまくいきそうだということが分かるが、文字より上のレイヤーで畳み込みの処理がうまくいくケース、
あるのかなぁ。

本日で深層学習勉強会は一旦終了かと思いきや、年明けも1回やることに。まあ、新しい研究内容を知るのは楽しいので、来年度も継続できるといいな。深層学習縛りでなくてもいいが、完全に自由に選んでもらうより、なにか制約を加えた方が(たとえば「この国際会議」みたいな)論文を探しやすい、という知見も得られたことだし……

夕方は研究の相談。やればいいことが分かっている研究は、手を動かせばできるところをいかに素早く通過して、頭を使うべきところに時間をかけるか、にかかっていると思うのだが、手を動かせばできるところで止まってしまうのが、ちょっと残念。これも、研究室の層が薄いことに起因するのだろうし、1期生、2期生のみんなには申し訳ないが……。

学部生のみんなは割とちゃんと進んでいるようで、あまり心配していないのだが、みんなちゃんとサーベイしているかどうかが気になる。年明けは論文を書くのに時間を使わないといけないのだが、そこで先行研究の調査漏れがあったりして出戻りがあると、けっこう厳しいのである。

どうやったらみんなもっと論文を読むようになるんだろうか……。iPad を全員に支給しているのは逆効果なのだろうか?松本研では、机の上に紙の論文がうず高く積まれている先輩を見て、自分も読もう、という気になったりしていたものだが、PDFだとそうはならないしなぁ。(自分も研究室に本がないと格好がつかないので、わざわざ紙で本や雑誌を買って並べているくらいだし)