こども語辞書

こども語辞書というものを NTT 研究所で作って公開しているらしい。たとえばま行で引くと「まーま」の意味が「アンパンマン(25%)・お父さん(25%)・ママ(25%)・意味不明(25%)」と分かり、子どものいない自分なんかは「まーま」は「ママ」じゃないのか? なんて思うのだが、データから意味を抽出しているそうで、興味深い。

ウェブ上でこういう用語の辞書を作っているそうなのだが、10ヶ月で500人の協力があり、5,000語の辞書ができたと上記サイトには書いてある。ボランティアで協力募って実際に辞書ができるというのはすごい。形態素解析に使うような辞書だとかなりコストをかけないとしっかりした辞書にならないと思うが、用途を工夫すればこういう辞書作りもできるのだな。

いやー、自分に子どもが産まれたら毎日どんな単語を喋るのか記録しようと思っている(言語学者の娘とか息子はこういう実験・観察の被害に遭うらしい)のだが、こういうデータからおもしろいサービス作れるといいな。