電子化しないほうがよいこともある

午前中は論文紹介。今学期から、紹介をする人以外に「クリティーク」という人を決め、発表者同様論文を読み込んできて、内容を批判的にコメントしてもらうのである。論文とは、読んで内容を理解するだけでは研究ができるようにはならない。この論文のここがこういう理由でダメだから、もしやるならこうやった方がいい、というような見方で読むと、それが研究ネタにつながったりするので、読むにしても批判的に読んだ方がいいのである。(もっとも、それなりに読まないと、理解するための質問しかできないが)

そういうわけで、今日のお題は

  • Yulan Yan, Chikara Hashimoto, Kentaro Torisawa, Takao Kawai, Jun'ichi Kazama and Stijn De Saeger. Minimally Supervised Method for Multilingual Paraphrase Extraction from Definition Sentences on the Web. NAACL-HLT 2013.

である。橋本さんの以前の研究の延長線上にある研究で、定義文の集合から言い換えを獲得できるのだが、人手でアノテーションする必要があったりして大変だった。本研究は、Wikipedia の1文目が定義文であるとして正例と見なし、ウェブからランダムに取得した文を負例にして教師あり学習する、というもの。Wikipedia を使っていることから、多言語にも対応できる(実際日中英で実験している)と。

クリティークがうまく行くか分からなかったが、やってみたら割とディスカッションも盛り上がってよかった。自分がこのタスクをやるならこの手法ではなくこうやる、とか、自分がこの手法のよさを主張したいならこのデータではなくこういうデータでやる、とか、この研究は着眼点はいいがこういう実験が足りないとか、そういう眼で論文を読む訓練を半年続けてみたい。

昼から M1 の学生の研究相談。M1 だったら(M2 や B4 と比べて)まだそこまで切羽詰まってないし、授業もあるからそんなに焦らなくてもいいのでは、とは思うのだが、いろいろフリートークで研究の話をして、どういうことに興味があるのかお互い分かってよかった。

確かに M1 の秋にも研究テーマが決まり、ずっと取り組めばかなりしっかりした(ジャーナルになる)研究ができるし、研究室としてはありがたいのだけど、研究者になるのでなければせいぜい修士のうちの研究成果が国際会議に通れば(研究費で海外旅行ができるので)嬉しいくらいかな、と思うし、研究室の論理を学生の論理に優先させたくはないな、と考えているので(程度問題で、研究室の論理を優先させてもらうこともあるが……)、M1 のうちは思い詰めなくてもいいんじゃなかろうか。

まあ、来年度から就職活動が後ろ倒しになるようなので、いずれにせよ年内には何をするのか決めて、可能なら5月、遅くとも7月のNL研(情報処理学会自然言語処理研究会)で発表してもらうことになると思うので、半年早いか遅いかくらいの違いかなぁ。

あと、水曜日の話であるが、FreeBSDレンタルサーバを借りたが GNU screenコンパイルできない、という報告があり、Ports システムの話やパッチの当て方を解説。自分が最初に使い込んだ Unix システムは FreeBSD (5年くらい使っていたし、いまでもレンタルサーバFreeBSD)なので、なんだか懐かしい。パッチを当ててコンパイルするのも、一人でやっていたときは「パッチなにそれおいしいの?」みたいな状態だったし、当てるのだけでも苦労していたもので、当てる実演を見ると参考になるかと思うのであった。同様に、Classias が Mac だと gcc でないとインストールできないようなので、gcc を入れてインストールする手順を実演したり。こういうのも、自分でやると数ヶ月から数年かかることも珍しくないので、できそうな人に相談したほうがいいと思う(Twitter でつぶやいたら、心優しい人が教えてくれることも多々ある)

午後は教授会。最近ようやく電子化されてきていて、次回からはノート PC を持ち込んでもいいらしい。自分はすでに iPad は持ち込んでいたけど……。

夜は研究相談。深層学習ホワイトボードを使って説明したが、やはり図や数式を書いて説明するのは圧倒的にホワイトボードが便利。これは部屋のレイアウトを変えても残したいものである。