早退

今日もいつもの時間に出社。

昼はトークに出たあと、Suma と1時間くらい話す。どうも先日 SemEval に出たそうで、それで名詞間の関係に興味がある、という話だった。自分もこれ出ようかなと思っていたのだが、データだけダウンロードして眺めて、結局手が回らなかったのであった。

彼女らのシステムが今回いちばん成績がよかったという話だが、1つの関係(AGENT とか THEME とか)ごとに100個しか訓練事例をもらえず、しかもラベルなしデータも使えない、という設定だそうだ。うーん、でもなんかそれは少し制約がきついような……。

彼女もインターンシップでは自分と似たようなことを最初やろうとしていたそうなので、いまのプロジェクトの話をお互いにしたり。2人とも来週が最終なので、またどこかで会ってお話しましょう、という感じで。CMU だけでなくイリノイ大学も行ってみたいな。

午後は別のトークにも出る。なんか研究するにつれて、大学院来る前の自分の当初の関心から少しずつ変化してきている気がする。この話読んで思ったが、

This is quite different from, for instance, work in pattern matching for information extraction (many other citations are possible). In this setting, when the system makes an error, one can ask the system "what pattern caused this error." You can then trace the pattern back to the source documents from which it came and obtain some understanding for what is going on.

にあるように、やはり重要なのは実際にどんな原因でエラーが出ているのか突き止めることで、それを回避するためにはどうしたらいいか、ってのを考えて(仮説を立てて)実験して確かめる(検証する)、ってことなんじゃないかと思う。自分はこういう地味~なのが好きなのかもしれない。でも実際のデータ見るとおもしろい。人間の言語ってこんなふうに使っているのか! てのが分かって(そりゃこれだったらこんなモデルでは解けないよね、ってのも分かったりして)楽しい。こんなふうにモデル/素性作って SVM/CRF/ME かけたらこんなよくなりましたよ、ってのも、パズル解きみたいなの好きな人にはいいのかもしれないけど……。

辞書とかコーパス作る人、もっと増えればいいと思うし、大学や大きな研究所みたく、人とノウハウがあるところが(小さいところだとリソースが割けず作れないだろうし)率先してやらないといけないんじゃないかな。

今日は髪を切ろうと思って早く会社を出たのだが、こっちの店は7時半でだいたい閉まってしまうらしい……。他の店が8時や9時までやっているので油断していた。天気がよくて気持ちいいからと寄り道しているんじゃなかったー。