芝刈り

午前4時くらいまで起きていてそれから寝たのだが、朝(8時台)から隣の NEC の研究所で芝刈りをしているので大層うるさい。平日にやってくれ!

というわけで研究室に来る。shuya-a さんや ryu-i さんが来ている。合宿の振り替え勤務……なわけないな。

あのひと検索 SPYSEE というので小町守を検索すると円グラフが出てくる(詳細は上記リンクをクリック)のだが、「学者・研究者」はともかく「グーグル」「筑波大学」「官僚」ってどういうこと!? (もしかしてマインドリーディングされた?!) taku さんのほうにはグーグルなんて書いてないのに……

あと細かいことを言うと形態素解析してないっぽい(工藤拓で工藤拓毅の情報が表示される)ところとか、名寄せ失敗しているっぽい(同一姓名は全部一緒くたにされている)ところとか、いろいろ自然言語処理的にはツッコミどころは多々あるが、まあこういうデモがあるとおもしろい。

説明文によると

スパイシーは「ひとを知る」ことをお手伝いする次世代検索エンジンです。

(中略)

 スパイシーの核となるのは、ウェブ上に存在する大量の情報の意味を理解し、必要なものを選び出し、編集して知識として提供するセマンティックウェブ技術です。セマンティックウェブ技術は、次世代検索エンジンを実現するための核となる技術として、世界各国で研究開発・実用化が進められています。オーマ株式会社では、日本発の次世代検索エンジンを目指して、国内でいち早くこの技術に取り組んでおります。

また運営会社概要によると、

SPYSEE は オーマ株式会社 が運営しています。

情報が急増するにつれ、それをどう読み分析するかという技術を求める人々は増えています。
オーマ株式会社では、セマンティックウェブの技術を使って、
人名や組織名などの「Named Entity」に関する情報を整理して提供します。
Named Entityの関係性の取得、すなわち知識の抽出を通じて、世界を見渡す術を提供します。

ということで、固有表現に関するデモを作って公開するという新しいことに挑戦しているのは偉いことである。(企業の人なら Web クロールデータさえあれば3人/月くらいでこのくらいのものは作れそうな気もするが、そこから実用的なものを作るのが難しい)

分析対象になるのは他のユーザがリクエスト出した人なのか……(要求があった時点でページを作り始めるみたいである)。作成に4時間かかるらしいが、裏でなにやってんだろうなー