ACE: Automatic Content Extraction

自然言語処理の分野で ACE (Automatic Content Extraction) というプロジェクトがあるのだが、一言で言うと「テキストから自動で情報を抽出する技術を開発する」ということが目標である。そのプロジェクトで今年もコンテストが開かれるので、今日の意味談話解析勉強会はその紹介。

ACE の仕事は大きく分けると

  • Entity Detection and Recognition (EDR) -- 実体判別・認識
  • Relation Detection and Recognition (RDR) -- 関係判別・認識
  • Event Detection and Recognition (VDR) -- 事態判別・認識

の3つに大別され、歴史的には EDR → RDR → VDR の順に発展してきた。

実体判別・認識というのは ACE で実体(Entity)と呼ばれる物を判別したり認識したりする仕事。これが関係判別や認識、事態判別や認識における項(Argument)になるので、実体判別・認識はけっこう重要。松本研では ryu-i さんが研究している領域。

関係判別というのは実体間がどのような関係にあるのか、あらかじめ決められた関係の中に該当する物があるかどうか判別するもので、ここで考える関係は2項関係(2人の人とか人と組織とか)なので、その関係があるときの項を同定するのが関係認識。

事態判別というのは述語(動詞)や動作性名詞などがどのような事態を表しているのか、あらかじめ決められた事態の種類の中に該当する物があるかどうか判別するもので、事態によっては項が複数考えられるので、それぞれの項を同定するのが事態認識。

これからやろうとしているのは関係解析・事態解析で、ちょうどこの2番目と3番目あたりのことを目下の研究テーマとして取り組んでいる。去年も5月くらいに ryu-i さんが ACE の紹介(タグ仕様)をしてくれたのだが、去年は全然分からなかったなあ……。タグ仕様書はこれまでに何回かに分けて必要な部分だけ縮小印刷して参照していたのだが、今回全部通しで印刷して製本してみたら250ページになった。なかなかの分量である。この前『日本語 話し言葉コーパス』のマニュアル見たときは国語辞書と同じくらいの太さあってびっくりしたけど……

ちなみにいま ACE と平行する形で GALE: Global Autonomous Language Exploitation というものが活動を始めており、複数の言語からなる大量のテキスト(音声書き起こしも含む)を処理するプロジェクトが立ち上がっている。まだあまり資料も揃っていないようだけど……