通時コーパスの需要と供給

Polycomテレビ会議。自分から発信する方法、いまでもよく分からない……。

新編国歌大観CD-ROM版 Ver.2というのが存在することを知る。価格税込304,500円。個人で買うのは厳しいが、図書館相手だったりするとこんなものなんだろうか。

新編私家集大成CD-ROM版というのもあるらしいが、こちらも価格税別250,000円。これで儲けが出ているのか出ていないのか分からないが、あるところにはあるものだ……。

古典というのは伝統的な通時コーパスだが、いまはウェブがこれだけ拡大したので(言語使用の一部分かもしれないが)10年も経てば相当な規模の通時コーパスが手に入るだろう。古典は「古語で書かれた文書は(新たに発掘されないかぎり、あるいは新たに電子化されないかぎり)増えない」という性質があるが、現在が最先端のウェブ通時コーパスは時間の経過とともに増え続けるという新しい問題を提示している。

分野適応なんかは共時コーパス(あるいは時間は関係ない)を対象にしているけど、通時コーパスを対象にした分野適応もおもしろいテーマだと思うな〜(時間の前後関係があるのでそれぞれのコーパスの間に相関関係・因果関係があるはず。この関係がどう解析に役立ってくるか、というチャレンジ)

国立国語研究所でも通時コーパスの研究を始めたようだが、大規模ウェブアーカイブ(通時コーパス)といえば喜連川研。時系列データマイニングは古くからある研究分野のようだが、言語でこういう大規模な研究ができるようになってきたのは最近のことだろうし、なにか興味深いこと分からないかな〜

機械翻訳勉強会。発表練習の予定だったが実験のほうが芳しくないということで進捗報告になる。修士論文書いている人はいまが追い込みなので、実験うまく行かなくても産みの苦しみだからあと1ヶ月がんばりましょう!

午後書類仕事をぼちぼちと。メールの返信が溜まってきている。うーん、メールが溜まるのはよくない証拠。あえて受信してから24時間以上経ってから返信することもあるが……

最近 id:nokuno さんが毎日日記を更新されていてすごいと思った。しかもいろんなトピックで。翻って見るに、いろんな人から「小町さん毎日日記更新されていてすごいですね」と言われるのだが、他の人から見ると @nokuno さんのように見えているということだろうか〜