自然言語処理を使って日本語の歴史を研究する

午後打ち合わせで立川の国立国語研究所に。「統計と機械学習による日本語史研究」研究発表会に参加するためである。この研究プロジェクトは去年の年末からスタートの3年間のプロジェクトで、自分は機械学習や統計的自然言語処理方面からの研究分担者として参加している。

研究発表会は公開研究会で、プロジェクトのメンバーでない人もいらしたので、まずプロジェクトの概要を @togiso さんが説明してくださって、あと teruaki-o くんが最近取り組んでくれている明治時代の文書に対して濁点を自動付与する研究の報告をしてくれる。実際は最後人手でチェックするのだが、人手チェックしてくださった方も今回発表会に参加してくださり、いろいろフィードバックをいただけてありがたい。なにもないところから濁点を付与するより、こういうツールで前処理的につけてあると助かる、ということが直接聞けるのも、自然言語処理が日本語史研究の役に立っているのだな、と励みになる。

日本語史研究ではたとえば「あはれ」が含まれている箇所を全部漏れなく抜き出して議論する必要があるそうだが、いつも頭を悩ませるのは網羅性であり、どれだけがんばってもどうしても漏れてしまう事例があったりするらしい。grep が使えるようになっただけで、人手で全部見るより遥かにましになったようだが (まだ紙の書籍を目視で「検索」する人も珍しくないそうで……)、それでも「読みて」「読て」など送り仮名など考えつくかぎり入力して AND 検索をするそうで、表記揺れが何個か含まれるだけでお手上げ状態になるとのこと。少し精度が落ちていいなら曖昧検索を組み込めばいいのかなと思うのだが、どこまで許容範囲なんだろうか。でも自然言語処理が大きく手間を減らせそう、ということは分かって新鮮であった。

あと語義曖昧性解消なんかも、普通は語義にタグづけして機械学習するかと思うのだが、そもそも古文だと有名な形容詞でも全事例が数百程度だったりして、学習するまでもなく全部人手でタグがつけられる (もっと言うと、メジャーな形容詞とか名詞とかであれば、すでにそれを人手で分類して議論した論文がありそう) とのことで、これはカルチャーショックであった。確かに古文はデータが増えないし、言語学的「内観」も使えない (ネイティブはありえない)、という特徴があるので、時代によっては入手可能なコーパス全体が小さく、なにも「学習」するようなものはない、という場合もあるのだろう。この問題は割とおもしろいので、継続して考えていこうと思っている。

夕方から居酒屋餃子のニューヨークでメンバー5人でご飯。おいしい！　ここはまた来たいかも。国語学についてのいろいろな事をみなさんからお聞きする。こういう異分野交流会はおもしろい。上の世代の方々のお話を聞いたりしても思うが、人文系は濃い人が多いな〜。工学は「草食系」がほとんどだと思う (笑)　

[http://r.tabelog.com/tokyo/A1329/A132901/13053237/:title=本格焼酎しょうぎそば凪nagi]に移動して、おそば。自分も以前[http://d.hatena.ne.jp/mamoruk/20110122/p1:title=助教の年収]について書いてみたが、准教授の年収や地域格差などについても教えてもらう。人それぞれなんだなぁ。あと研究者夫婦というのはどこもそれぞれの悩みを抱えているものなのだなと思った。