自然言語処理における MapReduce の使い方のチュートリアル

今学期は毎週論文紹介するネタを探すのも疲れるので、適宜論文紹介を入れながら、

Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies)

Data-Intensive Text Processing With MapReduce (Synthesis Lectures on Human Language Technologies)

をしばらく読もうかと思っている。ちなみに http://www.umiacs.umd.edu/~jimmylin/book.html から全文の PDF がダウンロードできるので、そちらを使用予定。印刷・製本してパラパラとめくっているが、テキスト的には割といい本だと思う。みんながこぞって読むような本でもないとは思うが……(自然言語処理+大規模データ処理、というかなりニッチなところを攻めている)。リファレンスに NAACL HLT 2010 の論文がバリバリ参照されているのだが、まだ開催されていない国際会議の論文がこんなに言及されているってのは、すごいなぁ(ちなみに NAACL というのは自然言語処理分野で一二を争うレベルの高い国際会議です)。
Data-Intensive Information Processing Applicationsという名前で授業もやっているようで、前からちょくちょく講義資料も見ていたのだが、こういうホットな内容の授業って、一度講義資料を作っても翌年使い回しにくかったりして、大変そう……
あと、具体的にどうやればいいのか、という話はこの本には載っていなくて、MapReduce というプログラミングのフレームワークでどのように自然言語処理の研究をするか、という話しか載っていないので、副読本として
Hadoop

Hadoop

を指定する、と。

書き忘れていたが今月号の Software Design にも自然言語処理の研究者として有名な @kiyota_yoji さんが Hadoop について書かれている。

Software Design (ソフトウェア デザイン) 2010年 05月号 [雑誌]

Software Design (ソフトウェア デザイン) 2010年 05月号 [雑誌]

目次はこちらだが「第3特集 MapReduce[超]入門 今からでも間に合うHadoop使いへの道」ということで

  • 1章:Hadoop登場の背景 すでに皆,恩恵を受けている!……清田 陽司
  • 2章:MapとReduceを深く知る 実は皆,普通に行っている!?……太田 飛鳥
  • 3章:実際にHadoop環境を構築してみよう 仮想マシンVMware Playerで体験!……吉次 政人,中塚 寛幸
  • 4章:HadoopによるMapReduce処理を試す Wikipediaを解析!……森 竜也

とのこと。今日あとで買いに行こう。

ちなみにこの Synthesis Lectures on Human Language Technologies というのは自然言語処理系のチュートリアル程度の内容を本にして出版しまくっているシリーズ(上記の本の著者も NAACL HLT 2010 という自然言語処理系の国際会議で同じトピックについてチュートリアルをする。恐らくそのうちスライドが著者のページで公開されるであろう)で、他にも最近の自然言語処理のテーマが網羅されているので役に立つ。たとえば現在公開されているのは

  • Semantic Role Labeling. Martha Palmer, Daniel Gildea, Nianwen Xue. 2010
  • Spoken Dialogue Systems. Kristiina Jokinen, Michael McTear. 2009
  • Introduction to Chinese Natural Language Processing. Kam-Fai Wong, Wenjie Li, Ruifeng Xu, Zheng-sheng Zhang. 2009
  • Introduction to Linguistic Annotation and Text Analytics. Graham Wilcock. 2009
  • Dependency Parsing. Sandra Kübler , Ryan McDonald, Joakim Nivre. 2009
  • Statistical Language Models for Information Retrieval. ChengXiang Zhai. 2008

で、これから刊行予定なのは(抜粋。全部の予定は上記のページ参照)

  • Combinatory Categorial Grammars for Robust Natural Language Processing. Mark Steedman.
  • Data-Intensive Text Processing with MapReduce. Jimmy Lin and Chris Dyer.
  • Distributed Language Models. Thorsten Brants and Peng Xu.
  • Learning to Rank for Information Retrieval and Natural Language Processing. Hang Li.
  • Recognizing Textual Entailment. Ido Dagan, Dan Roth, Fabio Zanzotto.
  • Search Algorithms in Natural Language Processing: Theory and Practice with Dynamic Programming. Liang Huang.

とか。機械学習系もSynthesis Lectures on Artificial Intelligence and Machine Learningというのがあって、

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

とか、マニアックなところでは
Markov Logic: An Interface Layer for Artificial Intelligence (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Markov Logic: An Interface Layer for Artificial Intelligence (Synthesis Lectures on Artificial Intelligence and Machine Learning)

というのまであったりする。(もっとも、内容はやっぱりチュートリアルに毛が生えた程度のようだが……)

うまく行けば今年環境を整えながら一仕事して1本論文を書いておきたいところ。来年から本気出す(←棒読み)。