どれくらいのデータ量が必要か

今日の意味談話は ryu-i さんが Frustratingly Easy Domain Adaptation を紹介。

いろいろ比較しているのは参考になったが、結局のところはどれくらいのデータがあればそのドメインに適用できるか、というのが知りたいところだったりする。この論文に出てくるみたく数万事例も手に入ればそもそもかなりデータが使えるほうだと思うし……。

土曜日 fMRI とかだとサンプル数100くらいでも多いと聞いた(それでベイズ推定とかする)のだが、自然言語処理だと1,000事例くらいではやっぱり厳しいのか、どうなのか。そもそもデータ数少ないと不良設定問題になるだろうけど、現実問題として十分な量のデータを用意できるとも限らない。実験ではソースのデータ量とターゲットのデータ量を10:1から100:1くらいでやっているが、京大コーパスが4万文として、別ドメインで4,000文とか400文とかでタグづけするのは相対的には同じ比率だが、そもそも絶対量が少ないよなー。