From TreeBank to PropBank

今日の意味・談話解析勉強会は From TreeBank to PropBankという論文を紹介した。これは2002年に LREC という会議に出された論文だが、分量的にもちょうどだし意味解析のイントロダクションにはいいかなと。去年は最初から ryu-i さんが京大コーパスのタグ仕様とか読んでいて、タグの仕様書見せられても正直よく分からなかったのだが、1年経つと段々分かってきたかも。

コーパスというのはテキストのデータベースのことをいうのだが、そういったコーパスのうちペンシルバニア大学で作られているPenn TreeBank というコーパスが一番有名なので、その後作られるコーパスにはよくなんとか Bank という名前になっていることが多い。

同様にシソーラスというのはことばを他のことばとのネットワーク上の位置(同じ意味とか反対の意味とか包含関係とか)によって表現するものであるが、このシソーラスプリンストン大学で開発された WordNet というものがもっとも有名になったので、その後公開されるシソーラスにはなんとかNet という名前がついたものが多いのだ。

PropBank というのはそういったコーパスのうちの一つで、述語項構造というものを解析するに当たって必要となる意味役割についての情報をつけたテキストデータベースであり、意味解析器を作る人たちはこういったデータから自動的に学習したりして開発している。

個人的には自分で問題設定して問題解くというスタイルはそんな好きではないのだが、これはこれでおもしろいところもあるな、という感じ。

将棋で言うと、詰将棋も1作だけ作ったことがあるが、不詰め(詰将棋は敵味方交互に駒を動かして相手の玉という駒を詰みという状態にするのがゴールとなるパズルなのだが、うまく作らないと両方が最善の応答をすると詰まないものができてしまい、詰将棋を作るに当たってはもっともしてはいけないこととなっている)の作品にしてしまって、それ以来作るのは恐くなってやめようと思って専ら解くだけの人になったことがあり、ずっと苦手意識がある。(正確に言うと、苦手意識を払拭しようと思って詰将棋を作ってみたのに失敗したので、やっぱり苦手なものは苦手だから近づくまい、という思いを強くした)

問題解くだけだとだいぶ気楽なんだけどなー