アメリカを食べる

あまり仰々しい話ではないのだが、「米」とだけ書くとそれが「こめ(= おこめ)」なのか「べい(= アメリカ)」なのか分からない。ただ周辺を見るとそれがどちらかはだいたい分かるので、分かるなら区別したい。

ChaSen 2.4.0で「米を食べたい」と「米が食べたい」の読みを付与させるとそれぞれ「べいがたべたい」「べいをたべたい」になるのだが、MeCab 0.95ではそれぞれ「べいがたべたい」「こめをたべたい」になる。MeCab は最近学習モデルを HMM から CRF に変えたので(新聞記事だから米がアメリカの意味で使われている、つまり「べい」が正しい例が多いということは考慮に入れても)解析の精度が少しよくなっているせいだと思うが、本当はこういうのちゃんとお米のことなのかアメリカのことなのか分かった方がいいよなー、というココロなのである。

このあたりまだまだ難しいところ。(この難しさを伝えるのはさらに輪をかけて難しいと思うが……)

ちなみに Google で検索すると「アメリカが食べる」だと3件しかヒットしないが、「アメリカを食べる」だと6,000件ヒットする……。実は意外と使われているのかもしれない。