研究に必要なコーパスを揃えるだけでもかなりの出費

昼から研究会。論文紹介で、

  • 吉川克正, 浅原正幸, 松本裕治. Markov Logic による日本語述語項構造解析. 自然言語処理, Vol.20, No.2, pp.251-271. 2013.

を紹介してもらう。

論文の内容自体は [twitter:@Wildkatze] くんがNAISTにいたころやっていた仕事なのでそれなりに知っていたが、論文誌を改めて読むとまた違うものがある。述語項構造解析において、これまで格要素は独立に解析されてきたが、一階述語論理を扱える Markov Logic Network の枠組みを用いて、全ての格要素を同時に推定することで、たとえば同じ名詞がひとつの動詞の複数の格要素とならない、といった制約を入れることができるというのがポイント。動詞もそれぞれ独立に解析するのではない、と書いてあるのだが、どこがそれに対応するの?と思ったところ、「削除論理式」と呼ばれる論理式と、「全ての項はどれかの述語に結びつかなければいけない」という制約を組み合わせると、暗黙的ではあるが動詞間の関係も入るようである。

みんな、やるべきことをやって先に進んでいる感があるのだが、ここから先は手法ではなくデータの問題だろうか。

ちなみに、「自然言語処理」は公開から3ヶ月経てば無料でPDFが取得できるようになるのだが、公開されたばかりなので、今回は紙のジャーナルを撮影 (!) したものを使用。一応いまのところ研究室メンバー全員に、iPad を持っていない人には (自分が過去に使ったもののお下がりがメインだが) iPad を貸与しているので、印刷はしなくてもよいようにしてある。来年度に関しても、論文読み用の iPad と、研究室の Mac 環境は1人1台ずつ貸与できようにしたい (Mac 環境は Mac mini + Thunderbolt Display ではなく、MacBook Air になるかもしれないが……。円高による価格改定で MacBook Pro が10万円を超えてしまったのである。しかし11インチだとさすがに画面が小さいので、悩ましい)。

基礎勉強会は2言語間アラインメントと情報検索。機械翻訳シリーズが終わり、他の応用に入っていくようである。両方解説を入れてみて思ったのは、Koehn の Statistical Machine Translation を読むほどではないが、Manning の Introduction to Information Retrieval は言語処理の応用の基礎教養として読んでもいいかもな〜(来年の検討事項かもしれないが)。一応言語処理の基本的なところも出てくるし……。

Statistical Machine Translation

Statistical Machine Translation

Introduction to Information Retrieval

Introduction to Information Retrieval

少し研究費に余裕が出てきたので、夕方はコーパスの見積もり。というか、着任直後は研究をすぐスタートできないだろうからと後回しにしていたが、そろそろ買わないといけないので、重い腰を上げた、というほうが正しい。とりあえず最低限必要なリソースは以下のような感じだろうか?

これだけでちょうど50万円くらいで、けっこう痛い。そろそろ注文しておかないと8月までに使えない (入金してから発送だと、7月末〆に間に合うように手続きして、ようやく8月上旬に使えるようになる) ので、金額が大きいとはいえ、いま使える予算で注文しておくしかないのだが……。

ちなみに、首都大では (システムデザイン学部だけかもしれないが) 大学からデフォルトで支給される予算は准教授1人の研究室だと大体100万円ちょっと (着任直後の加算が10万円くらい……) で、これに加えて学内の競争的研究費に応募して通れば100万〜1,000万くらい (単年度) が支給されることがあるらしい (ちなみに「新任教員は通りやすいので応募するとよい」と聞いて応募したが不採択)。100万円だと、学生に研究室で使う計算機を用意して (10〜20万 x 学生数)、上記のような研究に必要なデータを買うだけでなくなってしまうので、大学外から研究費を獲得しないと出張にも行かれないわけだが (今年の出張の予算はありがたいことに松本先生から出していただいている)、少しずつ自分でも獲得していかないとなぁ。

夜はプログラミングチュートリアルの演習。オンライン学習器は何回か書いたことはあるのだが、SVMを書くのは初めてだった。今学期はプログラミングのチュートリアルだけで、機械学習の理論の勉強会はやらなかった (どれくらい負荷をかけていいのか分からなかったので、やれなかった) のだが、来年は「言語処理のための機械学習入門」は研究室のみんなで読んでもいいのではないかなと思ったりした。