人間の欲望に忠実なコーパスを見る

朝から涼しくて気持ちいい。ようやく秋かなぁ。

読書の秋、ということで、先日仙台で購入した「性欲の科学」をようやく読了。

性欲の科学 なぜ男は「素人」に興奮し、女は「男同士」に萌えるのか

性欲の科学 なぜ男は「素人」に興奮し、女は「男同士」に萌えるのか

サブカルチャーとか生物学とかそういうのを期待している人にはあまりおもしろくないかもしれないが、ウェブ (検索) 業界の人は読んでおいて損はない内容。というのも、著者の2人は機械学習データマイニングの専門家であり、検索エンジンのウェブ検索クエリログやテキストのNグラム頻度から、インターネット上のアダルト情報の分析と性に関する分析を、詳細に行った大著だからである。注釈を辿ると、テキストデータや画像データの (アダルトかどうかの判別式の) アノテーションAmazon Mechanical Turk を使った、ということが何回か登場しているところも現代風 (?) である。

もはや有名な事実ではあるが、インターネット上の情報はアダルト・ポルノばかりである。著者らも独自に収集したウェブ検索クエリログと、AOLが公開したウェブ検索クエリログの両方を分析しているが、当然のことながら傾向は同じである。これは英語だからではなく、日本語でも自分の感覚からすると7割はエロである。ちなみに2割はゲーム・アニメで、1割がそれ以外である。

一昨年言語学の方々との合同勉強会で、ウェブ検索を用いて用例を収集している方から、「GoogleでもYahoo!でも検索結果をそのまま出してくれず、フィルターしているが、自分は全部が知りたい。検索結果が歪められているので、全部出してほしい」という意見があってびっくりして、上記のようなことをお話して「エンジニアやアノテータの人たちが日夜必死になってクリーニングしているからこそ、あの程度で済んでいるのに、あなたがたはその努力は無意味で、アダルトサイトばかりの検索結果がほしいというのですか」と反応してしまったことがあるが、ここ10年ほどはウェブ検索しても (自分でそういう情報を意図的に検索しないかぎり) 有害情報をほとんど目にしないのは、その裏で多大な努力がなされているからである。まあ、フィルターしない生の結果も、人間の欲望に忠実であるという意味で、確かにある意味歪められていない結果ではあるが……。

誤解のないよう補足すると、言語学の人たちがおかしなことを言っていると言いたいわけではなく、泥のような作業をしている方々を自分が不憫に思って上記の発言をしたのである。先日のコーパス日本語学スワークショップでも、日本語書き言葉均衡コーパスに含まれているウェブデータに重複があるとか、Nグラム頻度がおかしいとかいった報告があり、確かにそれはそれで意味のある報告なのだが、ウェブ業界ではそういう話は10年前から知られており (そうでなければみなさんはこんなにウェブ検索を使っていないはずで……)、そういう問題に対処するためにデータを「歪めて」いるのに、きれいにしたら文句を言われ、きれいでない部分が見つかると責められる、というのはあまりに気の毒である。

さて、この本の興味深い点は、単にデータマイニングした結果を見せるだけではなく、ではどうしてある種類のサイトが繁栄し、あるいは予想に反して失敗するのか (実はストレートの男性を相手に若い女性との絡みを見せるような動画サイトは、全然儲からないそうである)、ということを、男女そして同性愛者などなどの生理的 (脳科学的) 側面から説明しようとしていることで、女性向けアダルトサイトがなぜ男性向けと同じように作られていないか、あるいは男性向けのアダルト動画を女性が見るととても不愉快な気持ちになるのはなぜか、といったような背景が述べられている。(実際、自分は女性ではないので本当のところは分からないが、本書に書かれている女性がアダルト動画を嫌いな理由は説得力があって納得したし、男性がいわゆるアダルト動画で興奮する理由も、男性として的確な分析がなされていると思う)

そういうわけで、ウェブ業界で働くあるいは働きたいと思っている方は、男女問わず本書を一度紐解いてみることをお勧めする。ただ、アダルト用語がとても多いので、こういうのが精神的に耐えられない人は避けたほうがよい。自分も読んでいて最初はちょっとドキドキしたが、1/6を読むくらいでアダルト用語や性的な描写はお腹いっぱいになり、単語列としてしか認識しなくなったが、こんなテキストを毎日見ている人たちには本当に頭が下がる思いである。