計算言語学

2008 North American Computational Linguistics Olympiad というのがあるそうで、(計算)言語学に関する問題を解いて優劣を競い合うコンテストをしているみたい。このページの左側のリンク(The 2008 Open Round Booklet)から問題が見られるのだが、これは計算言語学というより言語学寄りかな……? 元々自分はこういうのを計算機でやりたくて自然言語処理分野に来たので、久しぶりに見て少し解いたりしておもしろかった。情報系の人のために書いておくと、人文系の言語学の学部・大学院ではこういう問題(与えられた20文くらいのデータから文法を構築したり、20文についている対訳から単語の意味や活用・語形変化を推測したり)をひたすら解く授業が必修になっていたりする。

そもそも自分のやっている分野、自然言語処理というのは工学(技術)寄りの名前で、人文(理論)寄りの呼び方をすると計算言語学という名前になるのだが、実のところそんなにはっきりとした区別はないようだ。個人的には単語の共起やパターンから意味を推定したりするのはヴィトゲンシュタインあたりから来ていると思っている(語の意味はどのように使われるかであるとか、文脈から切り離して単語だけで意味を考えることはできないとか)ので、いかに工学寄りに近づいてもそこは忘れないようにしようと心がけているけど……。

さらに動機を書くと元々言語哲学に興味があって科学史・科学哲学分科に進学したわけだが、交換留学でシドニー大学にいた(数えてみるともう7年前である)とき Syntax の授業で William Foley という教授に出会い、その授業で

  • Foley, W. and Van Valin. 1985. "Information packaging in the clause." In T. Shopen, eds., Language Typology and Syntactic Description, 282-364. Cambridge University Press.

という論文を読んだことがきっかけで、言語学に興味をもったからであった。簡単に言うと、同じ内容を言うのに「太郎が花子と結婚した」「太郎と花子の結婚」のようにいろんな表現ができて、名詞句を使っても動詞を使った場合の表現と同じことが短い表現で言え、それが文章の情報構造(英語でもよく「旧情報から新情報の順番で出てくる」と言われるが、自然言語処理で言えば談話解析か?)と関係している、というものである。そういう意味では(最近 ryu-i さんにまかせっきりだけど)事態性名詞の研究はちょうど関心のあったところなので、内容的には非常に興味のあるところであった。

特定の言語に依存しない構造が人間の言語に埋め込まれていたりするのを見つけるとおもしろいのだが、使えるものを作るという意味ではやはり言語ごとの作りこみも必要だったりして、バランス感覚が必要かな? 作りこみ、自分ものめり込むとちくちく直すのが楽しくなってはまるタイプなんだけど……。言語学でこういう分野のことは類型論(typology)というのだが、計算類型論(computational typology)っていう分野が作れるなら本望かなあー……(Google で検索すると数十件ヒットするようだが)。機械翻訳(統計翻訳)の研究しているのも、確かに翻訳できたらできたで嬉しいんだけど、自分としてはこういう関心(複数の言語に共通の構造をくくり出すことができるかも?)からだったりする(あと単一の言語だけで動いても嬉しくない)。

前もどこかで書いたかもしれないが、大学院に来る前は、人文社会系の大学院(東大・東京外語大・一橋)と NAIST でかなり迷っていた。こっちに来て非常によかったが、最近言語学の勉強をさぼっているので、久しぶりに勉強再開しようという気になった。

いま気がついたささいなことだが、上記の論文タイトル「パッケージ」って入っていて、その後 Gentoo でパッケージ作成することになったのはなにか影響があったのかもしれない(笑)