Wikipedia のインストール

とうとう Wikipedia を研究に使ってみることに。というわけで先週末から MySQL に突っ込んだりなどする。いろいろ整形しないといけないようなのだが、ひとまずはこのままでいいかな……。

データサイズ的には日本語 Wikipedia は2GBちょい、英語 Wikipedia は12GB程度。個人で統計量取ったりする分には適当なサイズである。専門家でなくてもできる自然言語処理、というあたりを開拓したいので、Wikipedia には注目していたのであった。大学にいるんだから大学でしか使えない辞書とかリソース、計算機資源使って研究してほしい、という声もあるだろうが、たぶんそれは自分以外の人ががんばってくれることであろう。(たぶん相対的に言語資源に乏しい言語でもそうやって開発した手法は使えるだろうと思うし)　自然言語処理の研究者以外の人が「これって自分でもできるんじゃない?」と思って参加してくれるのが理想。

あまりに Wikipedia べったりになってしまうのは問題だが、限界を知って使う分には使い勝手のあるデータなのではないかと思う。「また Wikipedia かよ」「また Google のヒットカウント/スニペットかよ」みたいなふうに感じるかもしれないが、これはこれでいいのではないかと最近は思っている。

いいスニペットの抽出器って公開されていないのかなあー。基本的にはテキスト自動要約と同じで、検索クエリに対して適切な要約結果を返しているようなもんだと思うのだが、一応スニペット中に検索クエリが含まれている(もしくは検索システムが検索クエリと同等だと判断している用語が含まれている)場合はハイライトされるので、人間が見れば「なぜそのドキュメント/スニペットが出てきたのか」が分かるというのが利点かな。ちなみに Live Search のスニペットは、だいぶよくなったがまだ検索結果の下位の候補にはときどきスニペット中に検索クエリが含まれないことがあるので、なんでこれが? と思うことがときどきある(Google と比べるとインデックスが小さいのも影響しているんだと思うけど)。