企業での自然言語処理の応用は研究から20年遅れている

shima さんの日記経由で情報検索のオリンピックという記事を知る。これは NTCIR という情報検索の国際ワークショップのことを指していて、さすがにオリンピックは言い過ぎだろうと思っていたが、今日初めて参加して、NTCIR ちょっと甘く見ていたと反省。ワークショップでも議論盛んだし、なによりオーガナイザーの人たちがすごくがんばっている。7回も開催していてすごいなぁと思うのだが、こういう研究レベルの話と検索エンジンなど企業で応用されるまでのタイムラグ、もっと短くしたい、というのは企業の側の人が特に思っているらしい。

研究と応用のタイムラグという意味では、上記の記事から引用すると

つい最近、Googleが自動翻訳による言語横断検索サービスを公開するというニュースが流れたが、言語横断検索の研究は10年以上前から盛んに行われており、NTCIRにおいても第1回NTCIRから毎年メイン種目として取り組まれてきた。

ということで、今回の NTCIR の発表でも Google 翻訳を使って言語横断検索するという発表が2つあったが、現在 Google 翻訳で使われている統計翻訳の原理自体は1990年に発表されたものであり、web サービスとして使われるまでに20年近くかかっている、ということになる(もちろん統計ベースでない翻訳は前からあるのだが)。

もっと言うと、タイトルにも引用したように、

昨年から「自然言語質問の入力による検索」という触れ込みの米Powersetが話題になっているが、上記のフレーズ自体は情報アクセスの研究者から見るとなんら目新しいものではない。NTCIRの言語横断検索も質問応答も自然言語質問を扱っているし、特に質問応答において質問の自動解釈を行うのは常識である。文書検索の発展形としての質問応答の研究が盛んになったのは1990年代であるが、いわゆるエキスパートシステムとしての質問応答は1970年代に研究され、その後衰退している。言うまでもなく、当時と現在の違いはウェブという膨大な知識源の存在である。

というわけで、WikipediaYahoo! 知恵袋みたいなウェブベースの知識源(普通のページやブログなんかもカウントする人もいるかもしれないが)が使えるというのが、研究でセマンティックウェブとか言われていたシロモノが実用段階に降りてきた象徴なのかなと思う。

どちらかというと研究発表の場と言うよりは意見交換・討論の場所という感じで、(研究所以外の)企業の人は参加しにくいような印象だったけど、夜の討論会に参加したら違ったのかな? (今日は実家に帰る予定だったのでそのまま戻ってきた) また機会があればのぞいてみよう。