自然言語処理における半教師あり学習のテキスト

最近移動続きであまり研究に時間は割けないのだが、本は読めるということで本を2冊、サーベイ的な記事を3本(うち2本はチュートリアルスライドつき)を紹介する。まず

Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis)

Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis)

を読む。この本の著者の Steven Abney はブートストラッピングの理論的解析をした人で、

  • Steven Abney. Bootstrapping. 40th Annual Meeting of the Association for Computational Linguistics: Proceedings of the Conference. 2002.

というそのものずばりなタイトルの論文(しつこいかもしれないが、自然言語処理におけるブートストラップとは、少数の事例から反復的に多数の事例にラベルをつける手法のことである)とか

とか書いている人である。不勉強ながら去年ブートストラップに関する論文を書いていたとき彼の研究について知らず、査読者の人から教えてもらったのであった。あれは教えてもらって本当によかった。さすがちゃんとした査読は違う、とうなったものであった。

さて、上記の本はこれらの論文の内容も含んだもので、サイズも小さいしそんなに厚くないし、一応機械学習を用いた自然言語処理の研究をしている人なら買ってもいいんじゃないか、と思う。とはいえ少し内容がブートストラップに偏った説明をしているので、他の人が書いたらこうはならなかったと思う。自分はこれでもいいけど……。

そもそもこの本を買おうと思い立ったのは、co-training を2部グラフと3部グラフで表現する話、誰も考察していなかったら自分がしようかと考えていたのだが、調べていたらどうもこの本にその内容が載っているらしいと知ったので、急遽東京から奈良に帰った直後に届くように注文したのであった。確かにそのものが載っている……。彼とほとんど同じテーマの研究だったので、先に考察されていて全くおかしくはなかったが、少し遅かった。ちょっと残念。(自分の昨年論文の内容は少し違ったので、知らないで同じものを発表した、というわけではなくて逆にほっとした)

もう一つ紹介すると、

Semi-Supervised Learning (Adaptive Computation and Machine Learning series)

Semi-Supervised Learning (Adaptive Computation and Machine Learning series)

という本も詳しくて参考になる。実はこの本2006年の出版で、発売されたとき半教師あり学習盛り上がるかなと思って買ってみたものの、ずっと積ん読になっていたのだが、去年終わりから今年の初めにかけてじっくり読んでみたらかなり勉強になった。特にちゃんとノーテーションが統一してあり、しかも前の章と後ろの章の依存関係を毎回指摘してくれるので、つまみ食い的に読む人でもどの章とどの章を先に読めばこの章が理解できるのか分かる、という意味でも親切。

実はサンプルの章がいくつか公開されていて、

が見られる。とはいえ実際に半教師あり手法でなにかしたいという人以外はイントロだけ見ればいいような気はする……(このイントロはかなり分かりやすい部類に入るので、お薦めである。)

大規模アルゴリズムの話が出たのでついでに紹介すると、半教師あり学習でも大規模化できるものとできないものがあって、そのあたりの区別は

が非常に分かりやすい。むしろ最初からこれ読めばいい、という気がするくらい……。ちなみにvideolectures でチュートリアルの内容も公開されているので、スライドを見ながら読むとさらに理解が深まると思う。(とはいえ文章のほうが分かりやすい)

あとは有名な Semi-Supervised Learning Literature Survey を書いた Xiaojin Zhu による

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

というのも出るらしいが、まだ発売されていないようだ……。このサーベイ自体は確かに網羅的でこれからこの分野の論文をがりがり読んでいこう、という人には非常に役に立つのだが、そもそも半教師あり学習がなにかよく分かっていないので、という人にはそこまで平易な解説ではないように思うので、単に興味がある人は1番目のイントロの章か2番目の解説見たほうがいいんじゃないかな。