ウェブ文書の正規化

「ゎナ=∪も行くょ〜」も修正 ―― KDDI研、「くだけた表現」の自動判読技術を開発というニュースが流れていた。

やっていることの原理はそんなに複雑ではないのだが、やはりどのように修正候補を検索してきているのか(どこが修正対象になるのかを判別する必要がある)と、編集距離(修正前の文から「何手」あれば修正後の文になるか)をどうやって決めたのかが気になる。

仕組み自体は音声認識や統計的機械翻訳、そして先日 Google IME として取り上げられていた統計的かな漢字変換とほとんど同じ仕組みでできるので、「統計以後」の自然言語処理を研究した人と、「統計以前」の自然言語処理の人とで、世界の見え方が違うのではないかと思うことはある。逆に言うと、本質的なところはあまり変わっていなくても、それを統計化しただけでだいぶ楽になります、というエンジニアリング的にはとても嬉しいことであっても、研究として続けようと思うと、もう一ひねり二ひねりしないといけないので、大変なところでもあるが……。

Google IME の次はスペル訂正だろうと書いたように、大規模なウェブデータを持っているといろいろと生の「日本語」を操作することができるので、非常におもしろいし、いろんなことができる。検索エンジン各社でもうやっているのだろうが、ウェブにある文書でもスペルがちょっと違っただけでマッチしなかったり、意味は同じだけど違う単語だったり、そういうのを機械的に「正規化」できるといいんだろうと思う(使おうと思うとランタイムでこれが高速にできないといけないので、そっちの高速化・省メモリ化のほうがチャレンジングなのかもしれない)。自分も類義語獲得のような仕事をしていたが、一般的には類義語よりも同義語がほしい、という状況のほうが多いように思う。

人間の言語は生産性も高いし、バリエーションも豊富なので、「こう書け」と言うと常にそれを外れるような言語使用が産まれ、それを見るのはなかなか楽しいのだが、やはりなんの方向性もないとカオスになってしまう(規範がないと規範を超えることもできない)わけで、日本語の IME を作るというのは、国語学者が「ら抜き表現は云々」「千円からお預かりしますというのはそもそも」などと言う以上に現在の日本語に大きな影響を与えるという意味で、どういうふうに作ればいいのか、考える必要があると思う。(taku さんの言うように、空気のように意識しないで使えるのが一番だけど)

とはいえ、こういう言葉の使い方を見ていると、自分からバベルの塔にしなくてもいいのに、と思ったり思わなかったり……