水曜日は午前中から勉強会が夕方まであるので1日なにもできない感じである。というわけで研究の話。
朝は EMNLP 2008 に向けた hideharu-o くんの今後の予定。shimbo さんがこれまでの連戦記録(= 査読者からのコメント)をコピーして配ってくれたのだが、たくさん読んでもらってもみんな似たようなところを指摘する、というのは、みんな質の高い査読をしているということだな。ちょっとびっくりする。
O 野原くんのところに紹介があった複数の単一言語コーパスから対訳語を抽出の論文を勉強会で読んでみる。yuuta-t さんが火曜日から出張で関西にいらっしゃるので yuuta-t さんも参加。新しい生成モデルによる説明のところに着目しておもしろいと思うか、それとも対訳辞書をシードからブートストラップ的に構築するところを見て「普通の話」と思うかの違いかな?
研究会は eric-n さんの話が長かった。半分以上勉強会で既に聞いていた話だったので、ちょっとぼんやりしてしまった……。エラー分析を見ていると、かなりの部分が HPSG 解析器のエラー(不備)によるもののようで、これは(何らかの方法でもっと頑健にやらないと) HPSG 使っているのが悪いと思われてしまっても仕方ないような……。もしくは乾先生がコメントしていたように、HPSG でうまく行く特定の現象に注目して優位な点をアピールするとかいう戦略もある。
ACL 2008 の論文が公開されたので、松本研でも ACL 2008 読み会を企画。毎年こういうのやりたいと言いつつ、フォーマルな勉強会っぽくしようとして言い倒れ(←変換の第一候補は「飯田俺」だった(笑))になってしまっていたので、今回はカジュアルな感じで。しかし早速松本先生が紹介論文を書き込んでいる(汗) こういうの、定着するといいんだけど。
mattonさんのスライドを見る。Tchai を使ってくれたという話は以前の日記で読んでいたが、こういう(法律用語の対訳)ところで使っていたのね。先日の半教師あり学習チュートリアルでも「抽出に使ったパターンはどうしているの」という質問があったが、パターンの作り方とかスコアリングとか、けっこうコツが必要のようで、うまく作る(スコアリングする)のはなかなか難しい。専門用語の対訳獲得についてもう少し自分も調べてみよう。
ちなみに ACL 2008 で使われた自然言語処理における半教師あり学習のチュートリアル資料が公開されているので、そちらを見られたほうがよい。上記対訳辞書構築の論文で使われている CCA の説明もスライドが数枚ある。自分のチュートリアルの準備、あまり時間取れずあっさりしたものになってしまったが、一応http://cl.naist.jp/~mamoru-k/slides/dmla-20080617.pptに置いておく。英語の資料を見るのが手間な学部生とかが検索で到達するかもしれないので……。
今日は研究の話ばかりになってしまったが、こんな日もあるか。