論文は実装すると理解が深まる

出勤後、本のコピーなど。@syou6162さんが手伝ってくれると申し出てくれたが、さすがに雑用は自分がやるべきかなと……(30分くらいで終わったし)

午前中は NTT に打ち合わせに行く。Workshop on Advances in Text Input Methods 2011 (テキスト入力メソッドに関するワークショップ) どうしましょうか、という話なのだが、結局6月17日〆切だと厳しいので見送りましょう、という感じに。本会議の〆切が2週間延び(て先週は死にそうになっ)たのだが、こちらは延びていない。

松本先生も「本会議が11月上旬で、本会議の論文採否の通知が7月22日なら、ワークショップの〆切はそのあとでもいいくらいではないか。普通本会議に付属するワークショップは本会議に落ちた人が出せるように、本会議の採否の通知のあとに投稿〆切が来ているものだと思う」と(Twitter 的な意味ではなく)つぶやいていたが、さすがに〆切が1ヶ月以上延びるのも混乱のもとだと思うし……(少なくとも何人か出す人は知っているので、閑散として全く論文が集まらない、という状況は避けられるだろう。少し延ばしたら出せるようがんばろうという人が増えるかもしれないが、微妙なライン?)

午後は機械翻訳の勉強会。自分の担当で統計的機械翻訳の Phrase-Based Models について話す。詳しくは @syou6162 さんによるメモを参照されたし (と手抜きをする(笑))。フレーズベースの統計翻訳、自分も M2 のころからツールキットを使って翻訳システムを作ってはいたのだが、学習や翻訳の仕組み自体は IME を作ってみてようやく理解できたので、Dに行く人はフレーズベースの翻訳エンジンを自分で作ってみるといいと思う。で、Koehn の SMT 本、疑似コードが書いてあるのはいいのだが、疑似コード自体が読みやすいわけではないという問題が……。

そして意味談話解析勉強会。今日は

を紹介。

情報抽出ではたとえば文書集合からテロリストがいつどこでどんな破壊活動をしたか、なんて情報を抽出することが目標になるのだが、そのためには「爆破」という事象には爆破する人、爆破する場所、爆破に用いる道具、などの要素が必要であることを知っている必要があるが、こういった「なにがその事象に必要な要素か」というテンプレートを事前に用意する必要があり、また、用意したテンプレートに関して文書の中でどれが人、どれが場所、どれが道具、なんて情報を付与したデータが(教師ありの機械学習するために)必要、という問題があった。この論文は、その2つの問題を解決した、という論文。具体的には、テンプレートを指定しなくても自動的にテンプレートを獲得し、獲得したテンプレートで(タグつきデータなしに)自動的に情報抽出を行なえる、というもの。

手法自体はこれまで彼らが大規模テキストから事象間関係の知識を narrative schema とか narrative chain という形で獲得してきたものと同様で、特別な飛躍はないのだが、こういう事態間の知識獲得の研究をしているなら押さえておくべき1本なのかなとは思う。性能は微妙だが、完全に教師なしでできるというのは嬉しいケースもあるだろう。ただ、narrative schema 同様謎の(タスク・コーパス依存で調整がいかにも難しそうな)パラメータのオンパレードなので、これを実装して使うのは厳しいかも……。