猫に小判 豚に真珠 わたしに iPhone 4

言語学と自然言語処理の合同勉強会。朝乗るバスをどうも逃してしまったので車で来てみたが、京都市内に入ってからが長い長い。そして駐車場で迷う。

結局自己紹介の時間に遅れてしまったが、@shirayuくんの発表には間に合う。自然言語処理側からの発表として、述語項構造解析について手短にまとめてくれる。みなさんの食いつきもよかったので、成功ではないでしょうか。

休み時間に黒田さんやら@cacahoさんやらと述語項構造の話やらアノテーションの話やら。どこも抱える問題は共通してますなー。

後半は言語学からの参加 (@tomo_wb くんが内容をまとめているのでそちらを参照されたい)。ウェブを研究に使う人が増えているらしいが、やっぱり作例ではない生身の人間が書いたデータが取れるという点で、ウェブデータも貴重らしい。「Googleは余計なことをしてくれるので、なにもしない生のデータを使わせてほしい」という意見だったが、ウェブのデータなんてほとんどエロとアフィリエイト目的のコピペばかりで、本当にそんなものを使いたいのですか???とツッコんでみたり(スパムを除去するためにどれだけの労力がかかっていると思っているのだろうか、とぼやいてみても仕方ないが)。

トリも言語学から@ttsuchiyaさんの発表。「鬼に金棒 弁慶に薙刀 ローソンにATM」という広告があったそうだが、この「NPにNP(NPというのはnoun phraseつまり名詞句のこと)」というようなパターンの慣用句やことわざにおける意味はどのようなものがあり、どのように決まるか、というもの。他の事例としては「猫に小判 豚に真珠 私にiPhone 4」という表現があったらしい(笑)が、これを「鬼に金棒 豚に真珠 私に iPhone 4」だと意味は違ってくるでしょう、と。なるほど。

お茶の水大@kaleidotheater さんがいらしていたようで、CCGを使ってこの例を華麗に説明していてちょっと感動。範疇文法のファンになったかも。しかしこのように周辺の文脈によって意味が決まるという問題、語義曖昧性解消問題そのものだよなー。単語単位の曖昧性解消ではなく、フレーズ単位の曖昧性解消であり、単語のように辞書的に語義のセットを決めることができない、という点が典型的な語義曖昧性解消の問題設定とは違うのだが、こういうような設定での意味的類似度の定義は自分の研究分野なので、これについてもなにかできるとよいのだけど。単体ごとに問題を解くのではなく、文全体で同時に解くと自然に意味が決まるというような。(たとえば「ライオン」だけでは動物の名前か会社名か製品名か分からないが、「ライオンや花王」といえば会社名だと分かる、というのと同じ)

懇親会でもいろいろと違う分野のお話をお聞きすることができて勉強になる。黒田さんが「言語学の人たちは生成モデルでないと話を聞いてくれない」というようなことをおっしゃっていたのが印象的。確かに原理を明らかにしたいのか、それとも問題を解きたいのかでスタンス違いそう。自然言語処理が識別モデル優勢になってしまってからだいぶ言語学自然言語処理の間は離れてしまったのかも。生成モデルに揺り戻しがあるとよいのだけど。言語学の人たちがついて来られないくらい数式バリバリの世界にはなるのだろうが、もし仮に言語がそもそもそういう性質を持つものなら数式で書かざるを得ないので仕方ない。個別の言語ではなく言語の仕組みに興味がある高校生には、きちんと数学を勉強しておくことをお勧めする(でもって日本だったら東大に進学するしかないかな)。

会を呼びかけてくださった@langstatさん、会場を準備してくださった@kana0355さん、どうもありがとうございました!またぜひやりましょう!