実験をしてこそ分かる全体図

いろいろあって午前2時からひたすらメール処理。何日も返事できないメールが溜まる一方である。学生からのメールは、勉強会で1-2日に1回は会うので、直接会ったときにメールの返事をしていないと感じ悪いので優先的に返すのだが……(直接会うならメールで返事しなくてもいいじゃないか、という考えもあるだろうが、直接会える時間は直接でないとできない話をしたいのだ)。

午前3時ごろ、一時中断して論文誌原稿へのコメントを入れる。誰も作業していないと思って直接コミット&&プッシュした(BitBucket で管理されている)のだが、[twitter:@chokkanorg] さんの修正部分と競合していた(同じ範囲を添削していた)らしい……。申し訳ない。手動でマージしてくださったが、時間のない人が下手に直したりするものではないな、と思った。

お昼から、名工大佐藤さんがいらしたので、パラグラフベクトルを用いた有害文書分類について、研究室でトークをしてもらう([twitter:@moguranosenshi] くんがお願いしてくれた)。うちの研究室でもちょうど [twitter:@zawa9510] くんがパラグラフベクトルを用いた語義曖昧性解消の研究をしたりしていたので、参考になる。うちでは sentence2vec に入っている実装をそのまま使ったのだが、最終的に Python (Cython) で自分で書いたという話を聞き、やっぱり自分で式展開を追って書いたほうが理解が深まるよなぁ、と思ったりする。いまちょうど Theano で書かれたコードを見たりしているので、いまさらながら段々深層学習の実装が分かってきた。

研究会では M1 の人たちが学部時代の研究について紹介してくれる。ときどき昔の研究を振り返るのは、意外とよいものである。自分も修士時代の研究を思い出すと力不足を痛感するのだが、右も左も分からない時期にしかできない研究というのもあり、無我夢中で研究してきたからこそ勉強になった、という面もある。きっかけは何であれ、研究を始める前にどういうことがしたいと思っていたのか、そういう初心は大事だと思っている。

夕方は論文紹介で、

  • Kartsaklis and Sadrzadeh. Prior Disambiguation of Word Tensors for Constructing Sentence Vectors. EMNLP 2013.

を紹介してもらう。名詞はベクトルで動詞や形容詞は(名詞のベクトルに作用して意味を変えるので)行列だ、というような研究がここのところちょこちょこ登場しているのだが、この研究はさらにそれを一般化し、動詞や形容詞は(ベクトルや行列を一般化した)テンソルだ、というお話。まあモデル的には可能な話で、最近テンソル自然言語処理の接点にも興味があるので、割と期待は高かったのだが、読んでみてもいまいち内容が分からない。説明してもらって判明したのは、いろいろモデルを提案しているのだが、提案手法についての実験が足りていない、という事実。これで EMNLP のフルペーパー通るのか……。

テンソルにすると自由度が高いので、まともに性能を出すには(モデル自体はきれいにできても、計算可能にするための)いろんな制約を入れたりデータを大規模化したりしないといけないのでは、と予想しているのだが、やっぱりこれも自分でやってみないと分からないなぁ。(結局実用的には行列でいいのでは、という結論になるかもしれないし)