着物を切る

Ajax に手を出してみる。最近まで使わなかったのだが、仕方ない。割とおもしろい。

学内プロジェクトの報告書を書くために仮名漢字変換ソフトの比較をしているのだが、割と提案手法(ChaIME)はマシな変換をするのではないかという気になる(MSR IME コーパスで評価すると MS-IME と比べるとだいぶよくないのだが)。たとえば ATOK 2007 が誤変換する例文を入れると以下の通りである。

ChaIMEATOK 2007 Anthy 8607(7500,9100も同様)AjaxIME
請求書の支払日時請求書の市は来日時請求書の支払い日時請求書の支払いに知事
近く市場調査を行う。知覚し冗長さを行う。近く市場調査を行う。近く市場調査を行う。
その後サイト内でその五歳都内でその後サイト内でその後再都内で
去年に比べ高い水準だ。去年に比べた海水順だ。去年に比べたかい水準だ。去年に比べ高い水準だ。
昼1迄に書類作っといて。昼一までに書類津くっといて。昼一までに書類作っといて。肥留市までに書類作っといて。
そんな話信じっこないよね。そんな話心十個内よね。そんなはな視診時っこないよね。そんな話神事っ子ないよね。
初めっからもってけばいいのに。恥メッカら持って毛羽いいのに。恥メッカらもって毛羽いいのに。始っから持ってけば良いのに。
熱々の肉まん2ぱくついた。熱々の肉まん二泊着いた。あつあつの肉まん2泊付いた。熱熱の肉まんにぱくついた。

Web コーパスから言語モデル、新聞記事から仮名漢字モデルを作っているので、上記4件は変換できて当たり前という漢字だが、下記4件は確かに少し口語的で難しそうである。ChaIME はどうもアラビア数字が好きなようでよく出てきてしまうのだが、1グラム頻度が高いのかなあ。とはいえ、口語的なところも含めて Anthy がけっこういい変換するので、Web IME としてはブラウザ経由で Anthy の変換できるようなサイトがあれぱいいのかという気もしてしまうが……。ChaIME は変換速度が遅いとかまだ2グラムしか使っていないとかいろいろ問題はあるが、それはおいおい考えるとして、とりあえず報告は現時点のものでまとめないと。