自然言語処理の定番の教科書まとめ

自然言語処理機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。

教科書について。Introduction to Information Retrieval

Introduction to Information Retrieval

Introduction to Information Retrieval

の翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべき本というのと、そこから超えていく本というのは違うものであって、どれだけ研究が進んでも、分からないことがあったら「あ、あれってそういえばなんだっけ、あれに書いてあったなぁ」と思って戻れる本を読みこなすのがよいと思う。いわゆる FSNLP
Foundations of Statistical Natural Language Processing (The MIT Press)

Foundations of Statistical Natural Language Processing (The MIT Press)

は確かに内容は古くなっているのだが、なにか分からないことがあったら割とこれに立ち戻って読み返すことはある(自分も年数回この本を開くことがある)し、そういう意味ではこれに代わる本というものは自然言語処理で登場していない。

統計的機械翻訳では先日も紹介した

Statistical Machine Translation

Statistical Machine Translation

がやっぱり参考になって、統計的機械翻訳の研究者の評価はあまり高くないのだが、それは「この著者ならもっといいものが書けたはずだ」とか「この内容なら5年前に書けたはずだ」とかいうものであって、やっぱり内容的には悪くないと思うし、自分もこの本を(今年買ったばかりだが)割と開いて勉強になっている(たとえばブートキャンプの資料を作るときとか)。

むしろ自分が気になるのは hideto-k さん(ご存じない方もいらっしゃるかもしれないが、奈良先端大の松本研の OB で、現在は Google機械翻訳の研究をされている)が Amazon に書評を書いていて、「機械翻訳だけでなく統計的自然言語処理の入門書としても良い」というタイトルで

現在の機械(自動)翻訳研究において主流になっている統計的機械翻訳の著名研究者による入門書。分かりやすい例を用いながら基本的な事項から説明しているため、機械翻訳に限らず自然言語処理全般に興味がある方にお薦めできる。(ただし言語と計算 (4) 確率的言語モデルやFoundations of Statistical Natural Language Processingなどで統計的自然言語処理について基本的な知識を身につけておいたほうが良いだろう。)
ただし、本書はあくまで入門書である。実際には重要だけれども、最初に概念を理解する上ではかえって混乱を招くような事項については、ごくあっさりと触れられているのみである。もし本書を読んで機械翻訳に興味を持ったら、是非本書に書かれたアルゴリズムの実装に挑戦してもらいたい。きっと次から次へと疑問が生じてくるはずだ。そうしたら各章末に挙げられた参考文献に当たって疑問を解決してもらいたい。それを繰り返しているうちに、きっとあなたも知らず知らずに機械翻訳の研究者になっているはずだ。

というわけで、これを機に統計的自然言語処理がもう一度盛んになってくれるといいなぁ、と思うのである。日本語では hideto-k さんも書かれているように 「確率的言語モデル

言語と計算 (4) 確率的言語モデル

言語と計算 (4) 確率的言語モデル

が(かなりニッチな分野ではあるが)とてもよい本で、こんな良質の本が日本語で読めるというのは日本人にとってはものすごく幸せなことだと思う(自分もちょくちょく開いて確認したりする)。その割には統計的自然言語処理の研究をする人がとても少ないのが残念なのだが……。

一応宣伝(?)のためにもう一度書いておくと、「言語処理のための機械学習

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

も、これ1冊で自然言語処理の全体をカバーするような本ではないが、機械学習に軸足をおいて自然言語処理の研究をやりたい学部生(もしくは学部から専門を変えて修士では自然言語処理をやることにしたM1の人)なんかにはとてもよいイントロダクションになっていると思うので、パラパラとめくってみるとよいであろう。

ただやはり研究と勉強の溝は深く、勉強が好きな人が必ずしも産みの苦しみを伴う研究をやりたいわけではなかったりするので、あくまでもここはスタート地点なだけであって、やっぱり研究に取り組んで七転八倒して、苦しくても世界でまだ誰も発見していないような知見を得るという体験をしてもらいたいなと思うのである。人生すいすいと進むのが当たり前だと思っている人にはつらいかもしれないが、せっかく学生でいるのだから、困難な道を進むと力がついていいと思う(学生のうちなら、スタッフや仲間がいて手助けしてくれるわけだし、手助けするためにスタッフがいるわけでね)。