みんながやっている処理を共有する

週末が潰れても仕事が山積みで休めないのがこの時期の大学教員のつらいところである(休んでも休日出勤するだけ……)。

午前中、2時間ほどメール処理。週明けなのでいろいろお返事する必要あり。

合間を縫って、NAIST方面から来た言語処理学会年次大会の原稿の添削をしたり。M2の人は修士論文とオーバーラップするので、どちらを書いてももう片方に役立てることができるし、みんな書いたらいいのに、と思う(が、もう松本研を離れたので、自分からは言い出さず)。

午後からは NLP セミナー。今回は

  • Mark Stevenson and Mark A. Greenwod. A Semantic Approach to IE Pattern Induction. ACL 2005.

を紹介してもらう。

情報抽出に用いるパターンを獲得する際、これまではパターンがどれくらい所望のクラスのインスタンスと共起するか、などということを尺度に用いてきたが、結局パターン獲得って同じ意味のパターンを獲得するってことじゃね?というわけで、現在獲得済みのパターンと(広い意味での)言い換えになっているパターンを獲得すればいいんじゃなかろうか、というアイデアである。

自分は以前これを読んだことあるかどうか分からない(読んだとしてもすっかり忘れている)のだが、提案手法は語彙知識をうまく活用していて、なるほどな、と思った。ただ、やはり識別的な学習ができたほうがいいんじゃないかな、と思うのだが、どういう方向でそれをしたらいいんだろうな〜。

夕方はプログラミング。遅くとも2月中旬までには終わっていないといけないので、ちょっと忙しい。毎回 CaboCha フォーマットを解析して文節クラスに入れるスクリプトを書いている気がする(恐らく日本語処理をされている方はみなさん独自に書いてらっしゃるのだろう)が、4月に研究室に配属される予定の学生には、このレベルのコードから使ってもらったほうがいいのかもなと思った(卒論に使える時間を考えると、ここに時間を使うのはもったいない)。

あと、そこそこの大きさの生コーパスがほしかったのだが、Wikipedia の本文もすぐ使える状態になく、日本語書き言葉コーパス(BCCWJ)も XML のままだったので、そこから準備することに……。これも、前処理したデータをみんなで共有できたほうがいいなぁ。どうやって共有するのがいいのか分からないけど……。