書かれていないことを推測する技術

午前2時に起きてミルクをあげてオムツを替え、2時半から河合塾の受験情報誌の校正。水曜日に送られてきて「金曜日までに校正をしてください」と言うのはまだよい(1ページだけなのでそこまでチェックは大変ではない)が、けっこう書かれている内容が訂正の必要なことばかりだったので、20カ所以上赤を入れて返送。自分の研究内容は説明不足なところもあるので仕方ないと思うが、プロフィールに「工学博士」と書くのはいかがなものか(「工学博士」が授与されていたのは1991年以前なのだが、そのころ自分は中学に入学したばかりだ)。

7月3-4日に開かれる情報処理学会自然言語処理研究会(NL研)は網走開催(プログラムは近日公開予定)なのだが、さすがに生まれたばかりの子どもがいるのに1泊するのは、ということで、日帰り出張にしてもらったので(幹事団に感謝)、往復の飛行機を予約してみたり。3日(初日)のみの参加となった。ほぼ始発・終電に近いので、この日は弾丸スケジュールだな……。

大学に出勤して午前中は論文紹介。

  • Kartik Goyal, Sujay Kumar Jauhar, Huiying Li, Mrinmaya Sachan, Shashank Srivastava and Eduard Hovy. A Structured Distributional Semantic Model for Event Co-reference. ACL 2013.

を紹介してもらう。事象(この論文では恐らく述語と同義)の共参照を解析するというタスクに対し、これまで述語の分布類似度を計算するとき係り受けを考慮していたが、基本的にラベルなし係り受けだったので、本論文ではラベルあり係り受け(Subject とか Object とか係り受けのラベルごとに共起を数える)を使った、という話。

これまで細かく区別されていなかったものを区別することで、あるタスクの性能が上がった、というストーリーは分かりやすく、納得度は高いのだが、評価と実験が分かりにくい。どのようなベースラインを作ったのか謎だし、データセットの書かれ方も不親切。細分化すると小さな違いが区別できるようになる反面、データが大規模にないとデータスパースネスの問題が発生するので、設定によっては必ずしも実タスクで性能が向上するとは限らないし、そのあたりの加減が書かれているといいのだけどな〜。まあ、読んだことない論文だったし、着眼点は悪くないので、読んでよかった。

お昼から学内の委員会。1時間程度で終わるかと思いきや、1時間半くらいかかる。あっという間に終わることが多い首都大のシステムデザイン学部の委員会にしては珍しい。

終了後、メールを処理していると、NLP チュートリアルの勉強会でトピックモデルのところがうまく説明できないので補足してほしい、とのことだったので、夕方から研究室で補講。確かにトピックモデルというか教師なし学習は、教師あり学習と違って腑に落ちる人と腑に落ちない人といそうである。しかしながら、自分自身 EM アルゴリズムやギブスサンプリングを実装して何か研究したことがあるわけでなし(裏で EM アルゴリズムが動いている、というのはよくある)、教師なし学習のココロが伝えられているかどうかちょっと不安である。