日本語版 Wikipedia の総単語数

午前中は共同研究のミーティング。Polycom で電話会議。こんな簡単にやりとりできるとは、便利な時代になったものだ。

午後は NLP.app 勉強会(自然言語処理の応用勉強会)で

Delip Rao and David Yarowsky. Ranking and Semi-supervised Classification on Large Scale Graphs Using Map-Reduce. In Proc. of TextGraphs-4. 2009.

を読む。やっていることは MapReduce を用いたラベル伝播で、これまで自然言語処理で使われていなかったのだけど、初めてやりました、という話(同じ時期に開催された ACL-IJCNLP 2009 でほぼ同じ手法を自分も使ったので、自然言語処理にこの手法を適用したのは彼と自分が同時期ということになる)。
しかし勉強会の中でも言ったのだが、この論文の中に出てくる「ラベル伝播と PageRank は同じである(PageRank の特殊化されたものがラペル伝播である)」というのは違うように思う。ランダムに任意のページに遷移するというジャンプの項が必要なはずだが、それが入っていないので、微妙に異なる。まあ、jordi-p さんが MapReduce の計算について質問してくれたりしたので、それは補足できてよかった。
後半は yasuhiro-r くんに演習問題を解いてもらう。今回は bigram (2単語の連鎖)確率を求める、という課題。先週までに1単語および2単語の出現頻度は求めておいてもらったので、あとはそれを組み合わせて確率を計算するだけ。ちゃんと Hadoop を使いこなしてくれているようである。全部自分でやるのも大変なので、M1 は授業だったりなんだりで忙しいとは思うのだが、手伝ってもらってありがたい。
次回は Wikipedia を用いたコーパスからの統計量(確率)の計算の課題を yasuhisa-y くん (@syou6162)がやってくれるそうで、こちらも助かる。shuhei-k くんも II 期になったら論文紹介してくれるそうで、論文紹介は最悪夏休みまでは毎週自分がやることを覚悟していたので、こんなに M1 の方々に手伝ってもらっていていいのかなぁ、と思ったり(松本研では夏休みまでは基本的に M2 以上が担当し、M1 は聞きにくるだけでよい)。ただ、確かに自分も M1 のときは論文紹介したり輪読の担当したりしていたな〜とも思うし、最初のうちは負荷高めにしておいたおかげであとあと楽だったのかもしれないし、やりたいと言う声はありがたく頂戴する (笑)
最後少し Wikipedia のデータ処理について話していたら松本先生から「全体で何単語ぐらいなの?」と聞かれたので概算してみると、日本語版 Wikipedia は延べ2億単語くらいであった。タイムリーにWikipedia の N-gramを公開されたのだが、日本語書き言葉コーパスが最終的には1億単語を目指すという目標なので、規模としては日本語版 Wikipedia だけでそれ以上の大きさがあることになる(もちろん日本語書き言葉コーパスは形態素解析や係り受け解析などの情報が一部にアノテーションされているので、全くアノテーションがない Wikipedia と同列に比較できるものではないが)。大規模と言えるかというと少し微妙だが、手頃なサイズのコーパスとして Wikipedia は使いやすいのではないかと思う。

(追記 id:toilet_lunch さんが調べてくださって、日本語版 Wikipedia の総単語数は4.2億だそうです。どうもありがとうございます。)

ちなみに先日の900倍高速化云々の話は釣りエントリーだったが、@tsubosaka さんが「Hadoopを使わずにWikipediaのテキスト処理を400倍高速化」というエントリーを書かれているので、合わせて参考にされたし。@tsubosaka さんの環境は自分もなんとなーく分かるだけに、なんとも言えないところではあるが……(必要は発明の母というか、富豪的プログラミングに慣れているとよくないな、としょっちゅう思う。貧弱な環境で揉まれているほうが絶対力がつく)