All Our N-gram are Belong to You

ネタ的にはだいぶ前のことなのだが、ちゃんとリリースされたようなので改めて Google Web 1T 5-gram Version 1。($150 出して買わないといけないけど、$150 くらいなら安いものだな)

圧縮状態で24GB。生コーパスでなくて 5-gram まででこの容量ってすごいな。IWSLT のとき NTT の人たちが IWSLT で「頻度が40以下のものはカットオフ(無視)されている」と言っていたの、実はなんのことかよく分かっていなかったのだが、各 n-gram のカウントの例を見てみると確かに40以下のものは存在しない。ふーむ。

もうちょっと見るためには、まず買ってもらわないと……。