We Parse the Web

というのは Powerset という会社で配っていた T シャツに書いてあった評語なのだが、「Web データを解析する」というのは(少なくとも実際にやってみようと思った人には)第一印象としては「本当にやっているの?!」というものだと思う。

自分もそう思っていたが、Powerset Blog のParsing Miss South Carolina’s Statementというエントリを読むと、どうも真面目にやろうとしているっぽい。(というのを maho さんからのツッコミを見て紹介しようと思った)

実際は Wikipedia の解析すら難しいのだが、本当に問題なのはここに書かれているように

A natural question is: how will our system perform on the rest of the Web with all of its slang, non-standard syntax, and so on?

ということなのではないかと思う。自分が Web 上の英語の文章を見ると割とまともに書かれている文章しかあまり目にしないのだが、実際は上記リンクに書かれているような uh とか言い直し・言い淀みとか含んだ、しかもなんか構文も微妙な文を解析しないといけないのである(これは話し言葉の書き起こしを含むデータなので仕方ないのだけど)。そして日本語のブログと言うと(趣は違うけど)そんなのばかりだったりして……。

「こんなの日本語じゃない!」と言いたくなるのを日々こらえながら研究をしている毎日でございます。

蛇足だけど、このブログは宣伝系のエントリはおもしろくないが、研究のエントリもたとえば Marti Hearst が書いた Noun-Noun Compound is Like a Chocolate Box のようなのもあるので、Google Reader に登録してときどき読んでいる。.