世の中には2つの種類の形容詞しかない。それは good と bad だ。

研究室に新しく来た中国人の留学生(修士1年)の人と話す。名大の外山研究室の出身だそうで、前萩原さんがよろしくと言っていた人のようだ。あと、パキスタンからの留学生(研究生)の人と少し話す。日本語かなり流暢なのだが、漢字が難しいらしい。

雑談していて「小町さん、日本人ですか?」と聞かれて、そんな質問これまで受けたことなかったので、なにかと思えば「日本人にしては英語がきれい」だそうで、嬉しいやらなにやらフクザツな気分。逆にその人もパキスタン人にしては英語の発音がきれいだったので訊いてみたら、「母語ウルドゥー語で、インド英語が第二外国語なので、インド式の発音もできるけど、意識的に英語に聞こえるような発音にしている」そうで、なるほど、と思う。関西出身だけど会社では標準語的な発音(語彙)で喋る、みたいな感じかも? お互い母語ではないのに誉め合うという妙なシチュエーション(笑)

英語といえば

を買って読んでみたが、あまり参考にならなかった。居酒屋で聞く武勇談が書籍になったような印象……。これだけスカスカでこの値段は高い。古本屋で300円がいいところかなぁ。(立ち読みで30分で読み切るレベルだと思うので、お金を払うだけマシ)

一つおもしろいなと思った、というか思い出したところは、「分からない形容詞は全部 good か bad に置き換えてみろ」という話。形容詞は要するに名詞を修飾する単語なだけで、極端に言えば good か bad しかなく、文脈で good か bad かは推測できるから、知らない単語が出てきて全体の文意が取れなくなるくらいなら、どちらかに置き換えたらシンプルになる、というもの。

この話、自分は受験生時代代ゼミの富田先生の英語で聞いたのだが、普通に英文が読めるようになっていてずっと忘れていた。

形容詞が全部 good か bad だというのがおもしろいと個人的に思ったのは、自然言語処理で最近流行りつつある評判情報抽出という分野で、基礎となる技術として単語の極性判定というのがあるからである。極性というのは形容詞なり名詞なりが positive か negative か(neutral を加えることも)を判定するもので、つまり miserable という単語が positive か negative か、要は good か bad か判定する、というものである。(辞書はたとえば hiroya-t さんが公開している単語感情極性対応表)

もう一つ、文脈で good か bad かは推測できるから知らない単語でも意味が分かる、というのは Turney の記念碑的論文

  • Peter D. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp.417--424, 2002.

で導入された「いい単語(excellent)とよく共起している単語はいい単語」「悪い単語(poor)とよく共起している単語は悪い単語」という手法がそのヒューリスティックを少しコーパス的に定式化した感じで、これまた受験英語で習った話が自然言語処理で扱えますよという内容で興味深い。

こういうふうに、これまで経験的にうまくいくことが知られていた方法が、コーパスを使ったりして解析的にも正しい経験則であることが明らかになる、というのは自然言語処理の醍醐味かもしれない。

(補足) 評判情報抽出について興味ある(自然言語処理関係の)人は意見マイニングの関連論文リストが参考になるかも。