あと何回かで授業が終わりかと思うとようやく肩の荷が降りそうだが、この最後が曲者で、5月の GW 以降に休みがないので夏休みが近づけば近づくほど疲労がピークに達するという……。
最近 word2vec についてまた考えているのだが、やはり word2vec のアプリケーションとして評価されたのは、意味の足し算や引き算ができることだと思う。それまでの次元圧縮とどう違うのか、というのが一昨年まであまり興味を持っていなかった原因なのであるが、結局 word2vec (をある設定で動かしたとき、特殊な形の)PMI だったという話を聞いて納得。
つまり、PMI(確率の積の対数)の世界での足し算は確率の世界では掛け算で、これは意味ベクトルの計算は掛け算ではないか、という研究を提案した Mitchell and Lapata (2008) の延長線上で、やはり意味は(適切なスムージングをかけて)掛け算で表すのがよい、ということなのだろう。word2vec で作った単語表現から文の表現を作るとき、複雑な(たとえば再帰)構造を使わなくても単純に平均を取ればそこそこうまくいく、というのも、word2vec だと意味に関しては足し算ができるから、ということなのかなと思う。
あと、Mitchell and Lapata (2008) のあと、世界でいくつかのグループが彼らの研究を再現しようとしたが、再現できなかったという話を毎年国際会議で聞いていたのだが、word2vec はデフォルトの設定でそこそこ使える結果を出せる、というのも大きな貢献である。
あとは述語をどうするか、であるが、名詞ほど簡単ではなさそうだし、これができると推論に一歩近づけるので、おもしろそうなところである。(ただしこちらは一本の論文やソフトウェアがブレイクスルーになる、というよりは、何かのアプリケーションやシステムで実際に推論できているところが示せて、有用性が認知される、といような感じでの広まり方だろうから、地道な作業になると思うが)