自然言語処理の温故知新

週末からろくにメールを読んでいないので、ひたすら大学の仕事をする。オープンキャンパスが28日に迫っているが、今年は盛況だろうか?

来月の国際会議の参加登録をしたり。学生料金じゃなくなったので高い。(松本先生の)研究費から出してもらうのだけど……。飛行機の便のチェック。サンフランシスコ経由でいったん降りて行こうとしたのだが、様々な理由により断念。そもそもいまの日程でも10日間なので、これ以上不在にするのはちょっとまずいのであった。その代わり、ポートランドからシアトルへの移動は(多少時間があるので) Amtrak ですることにした。

D1のとき初めての国外での国際会議の発表はメルボルン大学だったのだが、帰りは10時間くらいかけて電車でシドニーに移動して10時間くらいかかったのを思い出した。シドニーからメルボルンは学部のとき夜行バスで移動したこともあるのだが、夜行バスの旅はつまらなかったので、やっぱり移動するなら電車だと思う。

昼から CJE 勉強会。masayu-a さんが

  • Event Extraction as Dependency Parsing
  • D. McClosky, M. Surdeanu, C. D. Manning
  • ACL-2011 (draft)

を紹介。医療文書の event extraction (タンパク質の合成反応とかが "event")のタスクを依存構造解析だと見なして解いた、という話。紛らわしいのだが、構文解析構文解析でやっておいて、event extraction の部分を MSTParser を使って学習する、ということのようである。項にあたる部分は全部抽出できているとして、係り先のない項は全部 root にかける、というふうにすると依存構造解析でもできる、と。依存構造解析でやる必然性はないが、こうやって解いたのは初めて見たので、これはこれでおもしろかった。

あと先週の勉強会だが、masakazu-i くんが

  • Web-Scale Features for Full-Scale Parsing
  • M. Bansal and D. Klein
  • ACL-2011 (draft)

を紹介していた。最近いろいろなタスクで Google の検索のヒット回数が使われたりしているが、構文解析にウェブ頻度の素性を入れていろいろ調べましたという話。「こんなの当たり前だからわざわざ書かなくても」と思う人もいるだろうが、Google に毎回問い合わせると大変なので Google N-gram を trie に突っ込んでちょっと工夫した、という点が書いてあったり、エラー分析も含めて丁寧に調べてあるところが評価されているのだろうか。自分の印象だとこういう論文は EMNLP 向きだと思うのだが……。

研究会はDの3人。@tettsyunくんが凝ったスライドを作っていてすごいなと思ったが、来月の国際会議での発表時間が10分質疑5分と聞いてちょっと気の毒に。10分間で話すのは厳しいなぁ。自分もトークを頼まれているが、20分くらいあると余裕もって話せるかも。

@mrcarrotくんに言語モデルの話を聞かれたりしてトリガーモデルとかキャッシュモデルについて話したりする。このあたりは定番の「確率的言語モデル

言語と計算 (4) 確率的言語モデル

言語と計算 (4) 確率的言語モデル

とか、言語処理学会の2006年のチュートリアルTopicに基づく統計的言語モデルの最前線あたりを見るといいんじゃないかと思う。

あと、move-to-front 規則や Zipf の法則について話してみたり。自然言語処理のおもしろいところは言語の特徴をうまく利用して計算すると効率的に処理できるようになったりするところで、これはデータについても実装についても知らないとできないが、うまく処理できると気持ちいいのである。

そして TextTiling についても紹介してみたが、TextTiling は Perl だとLingua::EN::Segmenter::TextTiling が CPAN から入手できるし、 nltk にも実装があるし、もともとの Marti Hearst による論文

  • TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages
  • Marti A. Hearst
  • Computational Linguistics, 1997

も10年以上前だし、古典だなぁ。自然言語処理では、10年以上前で今でも参照される論文は数少ない。そういう論文、生涯に何本かかも分からないが、残していきたいものである。ちなみに、彼女の論文は10年以上前のものでもおもしろいので、自分は好きである。自然言語処理におけるブートストラッピングの大元の論文も彼女によるものだが、「理論上はこのステップは反復的に実行することが可能である」と書かれていて、実際に実験はしていないのだが、それがその後の反復的なアルゴリズムたちにつながっているので、考え方を示すというのは偉大なことなのだと思う。

自分が M1 のときは何を知らなかったのか、あるいは何を知りたかったのか覚えていないので (少なくとも上記の4つは間違いなく M1 のときは知らなかったが……)、こういうふうに聞いてくれるとありがたい。