かな漢字変換Webサービス

sassano さんのところ経由で知ったのだが、Yahoo! デベロッパーネットワークでかな漢字変換 Web サービスが始まったらしい。

中身は VJE のようだが、つまりバックスが休眠したのと関係あるということかな? (いま確認したらバックスのサイト自体消えている!)

今日 hiromi-o さんから「小学生の教科書を単語分かち書きしたいのだけど」という話を聞いたのだが、小学生の使える単語集合というのは学年ごとに決まっているのでたぶん簡単に表にすることができるので、あとはほとんどひらがなだけで単語分割するという話で、かな漢字変換と同じ問題。

学年別単語リストがあれば自動的にコーパスをその学年用の漢字しか含まれないように変更することはできるので、それで学習すれば単純なのはできそうである。かな漢字混じりの普通の文の単語分割であれば masayu-a さんが確率的単語分割ツール Bar++ を作っているので、これでいけると思うが、たぶんかな文字が多い小学生向け文章だとうまく行かないので……

もう少し作りこむとすると、確率的単語分割コーパスがひらがな列だけでも作成できるように修正して使う、とかだろうか。確率的単語分割コーパスって確か文字種による分割確率を使っていたと思うので、その情報がなくてもうまく動くかどうかは検証してみないと分からないけど……。