コードの夏、Hadoop の夏

今日の NLP.app 勉強会では shuhei-k くんが

  • Yi Wang, Hongjie Bai, Matt Stanton, Wen-Yen Chen and Edward Y. Chang. PLDA: Parallel latent Dirichlet allocation for large-scale applications. In Proc. of the Fifth International Conference on Algorithmic Aspects in Information and Management (AAIM 2009), pages 301-314. 2009.

を紹介してくれる。MPI を使ったバージョンと、MapReduce を使ったバージョンの2つの LDA の疑似コードが書かれている。MPI でも MapReduce でもそんなに性能は変わらないようだが、マシンが落ちたときのリカバリとかややこしいところの面倒を見なくていいのが MapReduce のいいところか。ちなみに MPI 版は A parallel C++ implementation of fast Gibbs sampling of Latent Dirichlet Allocation にコードがあるようだ。

LDA についても、最近周囲がベイジアンになってきたので勉強になる。一度実装してみたいものだが、作ったらなにか論文書きたくなるというのが人情というもの。やっぱりこういうタスクで速くなって効果があるものじゃないと嬉しくないかなー

実習では @tomo_wb くんが Hadoop を使って転置インデックスを作成してくれる。単語のカウントをするのとほとんど変わらないので、簡単にできるものだろうが、一度書いてみないと分からないしね。そもそも転置インデックスって M1 のみんな知っているのだろうか、とふと疑問に思ったのだが、来週補足したほうがいいだろうか。その来週は boolean retrieval を @shirayuくんがやってくれるそうだ。すばらしい。

最近またコードをいろいろ読んだり書いたりしているのだが、コード触っているときは没頭しますな。夏はコード書くには最高の環境だなー。Hadoop 回していると、地球環境によくないことをしている気になるが……。

しかし汗で身体がべとつくので帰ってシャワーを浴びたら一気に眠くなり、布団にくるまって寝てしまった。そしてもう扇風機を出してしまう。今年の夏はエアコンなしで行けるかな〜(そもそも実家でエアコン使ったことないし、扇風機があれば大丈夫なはず……)