Powerset×Microsoft

マイクロソフト、検索エンジンPowersetを買収へだそうだ。

Powerset といえば割と言語学的な理論(興味ある人いるか分からないが、LFG という文法理論に則っている)に基づいた自然言語検索を真面目にやっている検索会社として一部では有名だったが、最近 Wikipedia 検索を出したというので知っている人も多いようである。その昔Powerset の Wikipedia 検索について言及したこともあるが、実際リリースされた検索を見てみると、クラスの属性(会社には本社があるとか社長がいるとか)を表示したりしているので、どこまで人手でやっているのか分からないが、がんばっている模様。

今日

  • Marius Pasca, Benjamin Van Durme, ""Weakly-Supervised Acquisition of Open-Domain Classes and Class Attributes from Web Documents and Query Logs,"" pp.19-27, ACL-2008

について紹介するのだが、これは上位下位関係とそのパターンだけシードとして指定すると、あらゆるクラスとそのインスタンス、そしてクラス名まで8割の精度で抽出できる、というけっこうびっくりする話である。ここまで少ない人手介入で(半)自動的にできるとなると、クラスや属性を使った検索も実用段階に来ているのかも、と思ったりする。

去年の夏くらいは「来年インターンシップに行くとしたら Powerset もいいかな」なんて思っていた(日本語の述語項構造解析レベルのことをやっている人を募集していた)のだが、今年はインターンできなくて、結局今年で Microsoft に買収されたら行けなくなるってことか……(Powerset に行こうと思っていたのも Rion Snow がインターンしていたという話を確かチェコで聞いたからであるが) 今年度はだいたいやること決まってしまった(物理的にどこにいるかと、どんな分野のことをやるかが大体決定している)ので数ヶ月ぽっこり空けるわけには行かないが、来年度(もっと言うとさ来年度以降)どうするか考えないとなー