日本語コーパスと言語学と自然言語処理

日本語コーパスの完成記念講演会の初日。本来3月にワークショップがあったのだが、震災の影響で中止になったため、改めて今回開催される運びになったのだ。

今回は2日間それぞれ2時間のポスターがあったのだが、どうもポスター発表する人は昼食時間が確保されていないようで (国際会議などではポスターとビュッフェ形式の食事がセットになっていることが多く、発表者も頃合いを見計らって食べられるのだが)、2時間立ちっぱなしでご飯を食べ損ねる。ポスターでいろいろ説明したあと何人かの方々から「そういえば日記読んでます」とか「そういえば Twitter フォローしています」と言われて恐縮したりなど。

コーヒーサーバはあったので、@kanakokomiyaさんと立ち話をしたり。@kanakokomiya さんの職場は東京の実家のすぐ近く (たぶん自転車で20分かからない) なので、無茶苦茶地元ですね、という話をしたり、このコーパス関係のプロジェクトが自然言語処理の研究に与えた影響について雑談したり。そういえばよく日本語コーパス関係のシンポジウムとかでお会いしているかも……

この講演会、もっとこぢんまりとしたものかと思ったが、100人以上集まる巨大な講演会でびっくり。見た感じ、自然言語処理関係の人は1〜2割で、どちらかというとコーパスを言語研究に使う側の方々がいらしているのかなと思う。ポスターでも「エラー分析とかそういうことは我々言語学者がやるので、分析しやすい形でデータを出してほしい」というコメントをいただいたり。そう考えると、いまの NAIST テキストコーパス毎日新聞の CD-ROM を購入して Perl スクリプトを動かして生成するのでも、たぶん言語学専門の人には難しい作業なんじゃないかな…… (そもそも Perl をインストールするところから)。日本語コーパスの頒布でこの点がクリアできるようになると嬉しいな〜

招待講演は「日本国語大辞典」いわゆる日国の編集に携わっていた佐藤宏さん。

日本国語大辞典〔第2版〕1 あ~いろこ

日本国語大辞典〔第2版〕1 あ~いろこ

辞書の編集者の仕事について、用例を収集するのがいかに大変かというお話をされていて、確かにそういう用途だと大規模なコーパスが使えるのはありがたいのだろうな、と思ったり。「どれだけ面倒でもコーパスを当たれ」というのが編集者の心得だそうだが、自然言語処理の研究と同じだな……

夜根津のひよりというお店にたまたま入ったのだが、どの料理もすごくおいしい (し値段もリーズナブル)。 中に入るととても雰囲気がよく、カウンター席に常連さんっぽい人たちが何人もいて出入りしているのだが、外から見ると誰も人がいないように見えるので、いつも横を通っていて入るかどうか迷って入らなかったのだが、ここはまた来てもいいな〜。(料理はこんな感じ) 問題は来年の3月までにあと何回根津に来るか、だが……