日本語書き言葉コーパス: 照応と述語項構造のアノテーション

午前中タグづけミーティング。言語現象について調べると、いろいろと勉強になる (つまり、難しい事例がたくさんあるということだが……)。日本語はおもしろいなぁ。

昼から科研費の交付申請書を埋めたり。金額を書いて紙に印鑑を押すだけかと思ったら、研究計画書を再度書かないといけないのだった。というわけで、やたら時間がかかる。科研費の申請書は LaTeX のスタイルファイルが公開されているのだが、今回は Excel/Word に埋める必要があるのだ。

日本語書き言葉コーパスの述語項構造データに関する問い合わせが来たりもする。2月末時点でのデータの分量は3月のワークショップの予稿集(ワークショップ自体は震災の影響で中止になったが、8月にまたやるらしい)に書いた通りで、それ以降別のタグづけ作業に取りかかってもらっているのだが、ちょっと外部公開用のフォーマットに関して思うところがありまだ公開していないのであった (一応ページだけは作ったが)。

出す出す詐欺になるかもしれないが、内部的なデータも Yahoo! 知恵袋部分にその後問題が見つかり、一部再度タグづけする必要があるので、7月に Yahoo! 知恵袋部分のタグづけを見直してから公開の予定。いずれにせよ8月のワークショップくらいになるのではないかなと……(遅れてごめんなさい) 早く使いたい、という声もあるので、6月中を目処に NAIST テキストコーパス1.4β相当の形式で一部のデータ(新聞・白書・書籍)について、一度公開するつもり。

自然言語処理の基礎勉強会(FSNLPという教科書のM1輪読会)の TA が不在ということで、代打で入る。M1のみなさん活発に勉強していてすばらしい。実は自分自身はこの勉強会の TA を担当したことはないので、この勉強会に出るのは M1 のときから数えて5年ぶりである。

ちょうどコーパスについての部分の説明だったのだが、日本語のコーパスや辞書に関する説明がなかったので補足してみる。その中で、日本語書き言葉コーパスについても紹介してみたり。昨日の言語教育勉強会でも松本先生が「日本語コーパス係り受け解析の精度はきみたちのがんばりにかかっている」と冗談を言っていたが、思ったよりいろいろ問題があって時間がかかってしまうものだなあ。(文区切りがずれているとか、1文書が長過ぎてタグづけツールが落ちるとか……)

しかしやはりFSNLP は 1999年の本なので内容が古くなってきている (自然言語処理のいい教科書であることに代わりはないのだが)。せっかく中村研ができたので、

Speech and Language Processing: International Edition

Speech and Language Processing: International Edition

のほうを読んだ方が、新しい情報が入っていていいのではないかと思ったりもする。

勉強会のあとM1の人たちと少し雑談。今年は新入生歓迎BBQに行かなかったせいもあって、来る前から知っていた人たち(半分くらい)を除くと、あまり新入生の人たちと話していないかも。来る前から知っていた人も、本名や NAIST のアカウント名ではなく Twitter ID のほうが先に浮かぶのだが……(さすがに最近は名字は分かるようになってきた)