HTMLタグを使って教師なし係り受け解析

午前中 NTT 研究所に行ってミーティング。むむ〜、目のつけどころが参考になる (自分の力不足で、いろいろ出てきたアイデアのうち、ちゃんと消化して先に進められるものが少ないのが残念だが……)。研究者として必要なことの半分は永田さんから教わっていると思う。

昼から @pavlocat くんの中間発表。前回の研究室内での練習から比べても、matuyosi さんから指摘された点が反映されていたり、調査した数字が入っていたりして、だいぶよくなっている。実験に使うデータも @tomo_wb くんが作ってくれたし、あとはプログラム書いて回してみて、取れたものを見て議論かな〜

午後は意味談話解析勉強会で

  • Valentin I. Spitkovsky and Daniel Jurafsky. Profiting from Mark-Up: Hyper-Text Annotations for Guided Parsing. ACL 2010.

を紹介した。これは HTML のタグを自然言語処理の解析に役立てよう、というお話。適用したタスクは教師なし依存構造解析で、この分野(grammar induction)は Klein and Manning (2004) の Dependency Model with Valence、いわゆる DMVデファクトで使われているが、HTML タグの中には名詞句などの構成素(constituent)が多いという観察から、この DMV の制約として HTML タグを用いましょう、というアイデア

イデアとしては自分がちょうど今年の前半にやろうと思っていたアイデアだったので、先にやられてしまったか、という研究ではあるが、まだまだ改良の余地・使えるリソースはあると思うので、基本的には教師なしの解析に、ユーザが作成した(必ずしも自然言語処理のタスクのためにつけたわけではないような)大規模なデータを入れて、教師ありに近い効果を得る、というテーマはもっと研究していいと考えている。将来的には企業でもそういう筋の開発ができるといいだろうが、まだ現在の精度では手が出せないところで、ブレイクスルーが出てくるまで大学でやる価値もあるだろう。

教師なし依存構造解析自体がまだ精度5割前後をうろうろしている段階なので、すぐ応用ができるという話ではないのだが、古文など係り受けのタグが少ない言語を解析するだとか、タガログ語のようにまだ依存構造解析器がない言語もあり、教師なし依存構造解析自体でも有意義な研究だと思っている。(知識獲得のパターン抽出に使いたい、という話だったら、そもそも依存構造解析の精度自体も別にそんなに高くなくてもいいかもしれないし)

そもそも教師なしで係り受け解析ができるなんてのを知ったときはとてもびっくりしたものだが(タグづけしないとできないものだとばかり思っていたから)、大規模なテキストデータから自動的に規則性を発見して文法を作る、というのは統計的機械翻訳では前からやってきたことだし、考えてみるとそんなに突拍子もない話ではないのかも、と思ったり。

このあたり、しばらくコツコツと勉強してみたいな〜(そして研究につながるといいな〜)