中国語の時間表現

機械翻訳するときなんかに中国語の時間表現が問題になるという話。よく言われるのは中国語には過去形とか未来形とかの時制がない、という話(完了を示す助動詞はある)。

中国語のコーパス(文章のデータベース)にはあまり時制の情報がついたものがないようで、いろいろ苦労するらしい。日本語と中国語もしくは英語と中国語で同じ文章を訳したものを比較して機械学習させるとか、方法はいくつかあるみたいだけど。

コーパスって大事なんだなあ。

ふとどこかで、科学ってのはなんか新しい現象を発見したり革命的な理論を提唱したりするのが尊ばれているが、科学者としての営みの中で地道にデータを積み重ねていくような作業もとても大事なものなんだよ、という文章を読んだのを思い出した。革命的な理論によってそれまでの理論体系が一気に変わることを科学哲学では「パラダイムシフト」と言い、たとえば天動説から地動説への転換(こんな簡単じゃなくていろいろあるんだけど)なんかが例として挙げられるのだが、地動説の説明に使われたデータは、他でもなく天動説を前提にした人たちが延々と積み重ねてきたデータだったわけで、データ自体は天動説から見るか地動説から見るかで違った解釈になるにせよ、完全に全部互換性がないからと捨てられるものでもない。

言語は常に変化しているので同時代のコーパスを作るというのはスナップショットを取って保存できるという意味もあるし、危機に瀕した言語の記録をするというのはまた別の価値があるにしても、コーパスっていうのはそういうものなのかな、と思った。