数式を直感的に理解する

EMNLP 読み会(後半)。今年の自然言語処理の国際会議は深層学習祭りだったので、半分くらい深層学習に関するもの。結局一番大きな性能向上は(単語の)分散表現の学習から来ていて、大規模コーパスから計算したクラスの情報がデータスパースネスの解消に寄与する、ということも以前から分かっているので、お腹いっぱい、という人もいるだろうが、活気があるので読んでいておもしろい(10年後どころか5年後に生き残っている論文が何本あるか、ということだが)。

あと、離散の世界と連続の世界をどうつなぐか?というのが改めて問題になっていると思うのだが、情報抽出(ウェブマイニング)なんかでは深層学習どころかほとんど機械学習しないパターンマッチも使われる領域なので、このあたりに使えると、もしかすると性能向上が大きいかもしれない、と思っている。

個々の論文で一番おもしろかったのは、現在中国語の単語分割で世界最高精度と謳う

  • Chen et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation. EMNLP 2015.

で、いろいろ LSTM を組み合わせているのだが、もっとも性能がよかったのは、隠れ層1層のシンプルな LSTM であった、という話。また、文脈としては左は全く見ず、右2文字を見るものがベストだったと。文脈を見ないほうがよい、というのが意外な感じだったが、どうもそこまでの履歴は LSTM が保持しているので、右だけ見ればよい、ということのようである。このあたりはデータの分量にもよるのでなんともいえないが、納得できるものである。

こういうの、日本語に適応しようとすると若干違いそうだが、あまり複雑なことをする必要はないのかも、と思ったりする(辞書を持っているとき、どう使うのかは自明ではないと思うが)。

これで今年度の論文読み会はおしまいで、次は来年度の ACL 読み会、NAACL 読み会、EMNLP 読み会、COLING 読み会(←これは時期が遅いのでやらないかも)へと引き継がれるが、やはり一気に最先端のトレンドを概観するための(スライドを用いた)サーベイと、古典も含めて1本の論文を実装できるくらいに読み込む精読と、両方が必要で、後者の頻度をもっと上げたい(いまは週1なので、1人年に1回しか当たらない)のだが、時間的に難しい。

NAIST松本研は精読ベースの論文紹介が半期に2-4回くらい回ってきていたので、かなり鍛えられたと思うが(機械学習の論文紹介は、論文の内容が分からず部屋が全員数分沈黙したり、逆に論文そっちのけで議論が始まったり、闊達な雰囲気であった)、個別の研究グループでできたりしないかな……。

あと、先日 [twitter:@kiyukuta] さんのスライドが分かりやすいと書いたが、図解で直感的に説明するところと、数式を用いて説明するところと、両方がうまく組み合わさっており、うちの研究室でもああいうふうに理解・説明できるような力を身につけていってもらいたい(統数研の daiti-m さんも、数式が出てくる論文から、いつも分かりやすいスライドを作ってらっしゃる)。数式を出さずに図だけで説明されても分からない人もいるし(やりたいことが分かれば論文を読めばいいので、やりたいことが伝わる内容ならそれでもいいかもしれないが)、逆に図を出さずに数式だけで説明されても分からない人もいるし、両方をつなぐ、というのはかなり高度なことなのだと思う。