企業向けのオーダーメード自然言語処理の時代の到来

@descool2003 さんに教えてもらったのだが、Language Weaver という企業向け機械翻訳では世界トップの企業が、なんと昨日 SDL という会社に買収されたらしい。英日翻訳に力を入れる、と聞いていたので、え! という感じだが、どういう経緯なんだろう。

SDL というのは Trados という翻訳支援ツールを開発(した企業を買収)したことで知られており(その割に Wikipedia に Trados のページがあっても SDL のページはないが)、これは「翻訳メモリ」という考え方で作られているので有名である。

翻訳メモリというのは、自分が(もしくはグループの誰かが)過去に翻訳した例文を蓄積しておいて、新しい文を翻訳するとき類似する過去の文を参考に翻訳する(ので自分の言い回しが使い回せる)というシステムである。機械翻訳の精度が全然よくならないので、翻訳するという部分を人手に任せ、機械は機械のできることに徹する、というわけで、すでに翻訳者の間でも広く使われており、かなりの部分が機械化されている、とも言える。かな漢字変換で、ある程度までシステムが変換し、システムが分からないところは人間が候補を選んであげる、という分業に似ている(全部1位の候補でだけ判断されたらかな漢字変換だってたまらない)。

仕組みとしては用例翻訳に似ていて、用例翻訳が大量の対訳文があれば翻訳精度がよくなるように、翻訳メモリも自分の翻訳が溜まってくれば溜まってくるほどストレスなく翻訳できるようになるであろう。要は、この翻訳メモリと統計翻訳、もしくは用例翻訳の間にどれくらいギャップがあるかなのだが、翻訳メモリでほとんど頭を使わずに訳せるくらい対訳文が溜まっているなら、それは全部機械化できる可能性がある、ということだ。

Language Weaver のようなエンタープライズ翻訳は、Google 翻訳が一般ユーザ向けのものを作っているのに対し、企業の中の機密データを翻訳できる、という利点がある(Google 翻訳だと社外秘のデータは翻訳できないだろう)。また、その企業に全部翻訳システムを納入するので、企業側も「自分のところのデータが盗まれていないか」と心配する必要もないし、社内に大量のデータがあればそれを活用することもできる。お互い win-win なわけである。作る側としては、バグがあると大きな問題になるので気をつけないといけない(サーバ・クライアント型だとこっそりアップデートできるし、「ベータ版」と言っておけばいい、という側面もある)し、何十 GB も用意してくれないのでチープな環境でも動かないといけないとかいうプログラミング上のチャレンジはあるが、それでも(広告に頼るより)安定した収益が見込めるので、悪い話ではない。

機械翻訳界隈はここしばらくいろいろ動きがあっておもしろいなぁ。Daniel (Marcu) も Kevin (Knight) も SDL 買収に関わらず仕事を続けるそうで、今後もきっと盛り上がって行くだろう。

あともう一つニュースとしては、@takahi_i さんに教えてもらったのだが、ベイシス・テクノロジー、ルーシッド・イマジネーションと提携〜オープンソース検索技術のサポート・サービスを日本で開始〜というプレスリリースがあったそうだ。

Basis は知らない人のために補足しておくと、

ベイシス・テクノロジーは、グローバルなエンタープライズ検索やウェブ検索の分野において、日本語をはじめとする多くの言語処理ソフトウェア技術で長年にわたる実績があり、Googleマイクロソフトの Bing、Yahoo!検索エンジン等のほか、日米の政府機関でもその技術が採用されています。ベイシス・テクノロジーは、引き続き形態素解析等の言語処理ならびに情報抽出用のソフトウェア製品を提供するとともに、ルーシッド・イマジネーションとの提携にを通じ、その製品やサポート・サービスを提供し、完結した検索ソリューションの日本市場への提供をはかります。

というわけで、主要な検索エンジンの日本語検索機能を支えている企業の一つである(Google も Basis の形態素解析エンジンを使っている、ということを知らない人が多いようだが)。

このようなエンタープライズ(企業向け)翻訳やエンタープライズ検索のように、法人を対象にしたサービスは(一般的な知名度は低いものの)将来性が多いにあるし、一度顧客になってくれれば経営も安定(高収益)なので、月並みかもしれないが、学生さんたちも自分の身の回りにある企業(いわゆるB2C)だけでなく、こういう企業(いわゆるB2B)も検討するといいのだが、なかなか一般的な知名度にみなさん振り回されてしまうところがある。ニッチなところを狙う方がいいと思うのだけど……。