Baidu Type と多言語の入力メソッド

今日のトップニュースは Google 日本語入力に続いて Baidu もBaidu Type という日本語入力エンジンを作ったこと。技術的にどういうことをしているのかは分からないが、@mhagiwara さんも20%ルール的に関わっているらしいので、前から準備していたもののようである。

特徴的には中国語 IME では一般的な候補ウィンドウが横に並ぶ選択方法(日本語の場合基本的には縦に候補が並ぶ)と、デフォルトが予測入力であること。あと、中国語 IM では「スキン」という入力メソッドの外観が設定できるものもあるのだが、特徴の4つ目として Baidu Type もスキンをサポートしている。エンジンをどう作っているのか分からないが、インタフェースに関しては中国語の入力メソッドを流用しているという意味で、特徴的な入力メソッドであろう。

そのうち中国人エンジニアたちが日本人 PM の下で日本語の入力メソッドを作る時代が来る(まだ MS-IME は日本でも作っているようだが)のではないかと思っているのだが、日本語の入力システムは政治的(言語教育/言語政策)な問題でもあるように考えているので、日本人がデータとコードのレベルで関与した入力メソッドを作ることは重要だと感じている。コーパスの作成に時間とお金をかけるのも大事で、ベースのシステムをそれなりに使えるようにしつつ、大規模なログからのマイニングでなんとかなれば嬉しいなぁ。

今日の研究会は habib-a さんの研究進捗報告だったが、ウルドゥ語の入力メソッドを作るという話。ウルドゥ語っていうのはパキスタン公用語らしいのだが、ウルドゥ語母語の人はほとんどいなくて、学校で「国語」として教えているので、方言というのは基本的にないとのこと。そして、日本語では最近はローマ字入力の人のほうが多いくらいだが、ウルドゥ語では標準ローマ字表記法みたいなものがなく、日本語でいえば「かな入力」のような方式で、キー1つにウルドゥ語の文字を対応させて入力しているそうだ。ウルドゥ語の文字自体は40文字前後なので、shift キーを使えば全部表現できるらしい。ローマ字による表記方法が定まっていないというのは問題だとは思うが、これって自然言語処理だけで解決できることではなく、標準化委員会のような政治的なレイヤーで解決しないといけないことなんじゃないかなー

そういえば Google 日本語入力は品詞 bigram かと思っていたのだが、どうも @nokuno さんの発見したところによると「2じのまま」「3じのまま」「4じのまま」「5じのまま」などと入れると「5時のまま」「2児のママ」などと変換されるので、bigram 以上の情報も見ているのではないか、とのこと。なるほど。学習を消してもそうなるので、実際そうなのだと思う。あと、「危機一髪」を「危機」と入れて確定してから「いっぱつ」を入れると「一髪」になるので、単に入力されている文字列だけではなく、直前に何を入力したのかも見ているようである。「危機」と入力して別のウィンドウに移動し、他になにか入力してから「危機」の後にカーソルを移動して「いっぱつ」と入れると「一発」になるので、周辺の文字列を見ているわけではないみたい。(情報としては、Office では昔から周辺文字列は取得できたし、最近の TSF を使って作れば取得できるはずだが、この情報を使ったために間違える場合もあるので、変に凝ったことをして間違える必要はないとも思う)