日本語で読める自然言語処理の参考書まとめ

第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。

自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。

米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄京都駅前の illy で待ち合わせて一緒にランチ。日本語で読める、学部生向けの自然言語処理の教科書・参考書でいいのはありますか? というお話だったので、以下に少しまとめてみる。(自然言語処理の定番の教科書まとめも参照されたし)

自然言語処理の基礎

自然言語処理の基礎

入門 自然言語処理

入門 自然言語処理

  • 入門自然言語処理オライリー 2010)。Python で書かれた NLTK (Natural Language Toolkit) というツールキットを使って自然言語処理を学ぶ本。英語版は NLTK Book と言って無料で公開されているので、買う前に内容をチェックしたほうがよい。また、日本語版に追記されている書き下ろしの章は Python による日本語自然言語処理 として公開されている。こちらも、購入前に全文を読むことができる(内容はウェブで読める日本語処理の解説としてはトップクラスに詳しくかつ分かりやすい)ので、買う前に内容を見て、それでも買いたい場合は購入するとよい。

デジタル人工知能学事典 [CD-ROM付]

デジタル人工知能学事典 [CD-ROM付]

デジタル言語処理学事典 〔CD‐ROM付〕

デジタル言語処理学事典 〔CD‐ROM付〕

  • 言語処理学事典(言語処理学会 2009)。人工知能学事典で分からないことがあれば、こちらを参照するとよい。『人工知能学事典』同様、デジタル版がある。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

集合知プログラミング

集合知プログラミング

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

  • 入門ソーシャルデータ(オライリー 2011)。Python でウェブマイニングに関するいろいろなトピックについて解説した本。翻訳はいまいちだが、コードが豊富に載っているので参考にはなる(ただし、コードが読みやすい、あるいはきれいに書かれているとは限らないので、これを解読しようとするのは諦めて、こんなタスクがあるのか、と眺める程度にする方がよいと思う)。たとえば 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ を参照。

入門 機械学習

入門 機械学習

  • 入門機械学習オライリー 2010)。R で機械学習をいろいろなタスクに応用するという内容(あまり「入門」ではない)。個々の機械学習アルゴリズムはほとんど説明されていないが、どのようにしたら機械学習を自分のデータ に適用できるか、ということを知ることができる。Rを既に知っているのでRのほうが分かりやすい、というのでなければ先に『集合知プログラミング』および 『入門ソーシャルデータ』を読んだほうがよい。

結局のところ、自然言語処理を道具として使いたいのか、それとも自然言語処理自体の研究開発にコミットしたいのか、で何を手に取ればよいかが変わるのだが、前者をきっかけとして後者に興味を持つ人もいるので、何をお勧めすればいいのかは悩ましい。

午後は京大に移動して第5回入力メソッドワークショップ。まとめも作ってみた。方言に対応した日本語入力の話や、ライトニングトークの内容がとてもおもしろかった(後者は ノーソーシャルメディアということだったので、みなさんにお知らせすることはできないが)。

入力メソッドのレイヤーの研究開発をしている人がどんどん減っていることにみなさん危機感があるようだが、なかなかこのレイヤーの開発のできる人が増えない。このレイヤー(形態素解析や誤り訂正)の開発や研究をするのには、上記の「日本語入力を支える技術」が読みこなせるくらいの力が必要だが、その前提として「言語処理のための機械学習入門」程度の機械学習自然言語処理の内容は前提としていて、それを理解するには大学1-2年程度の数学と、人工知能に関するプログラミング能力がそれなりにないと厳しい。

来年は東京開催になる可能性があるが、今後も入力メソッドに関するなにかを細々と続けていきたいものである。