T2 & K2 meeting - 武蔵野日記

午前中は書類を書いたりいろいろ発送したり。ジャーナル関係もそろそろ？

午後は katsumasa-y くんと2人で情報処理学会第193回自然言語処理研究会へ。高の原に車を置いて(1時間300円、1日最大1,000円)近鉄で丹波橋経由、出町柳から歩いて京大まで20分程度。片道1人750円かかるのだが、
これは3人以上だったら車で直接京大まで来た方がいいよなあ。

思ったより電車の接続がよかったので最後のセッションに間に合う。森さんの「3種類の辞書による自動単語分割の精度向上」という話が聞きたかったのであった。現実的な設定ではユーザが作った単語のリスト(辞書)が使えることもあるが、こういった辞書は複合語なども一つの単語として登録されてしまっているので、内部構造が分からないものとして使えるような枠組みがあればよいね、という話。

実は @tkng さんと3人でときどきメールのやりとりがあり、それぞれかな漢字変換に関する進捗とかなんだとかあったら報告しあっているのだが、この論文自体も森さんが現在作っている KAGAMI という単語2グラムベースのかな漢字変換エンジンで書かれているとのこと。木曜日の NLP 若手の会ではデモが見られるということで、これは見に行かねば〜。

休憩を挟んで第7回東大・東工大合同勉強会(T2 meeting)。東大・東工大という割には、けっこう自分が東京にいるときに開催されるので、半分以上参加している気がするのだが、今回は研究会の最後にアナウンスがあったためか、だいぶ人が多い。もっと大学の中の内輪の勉強会みたく、フランクな感じだった気がするのだが……(悪くはないと思うけど、毎回あれだけ人がいるとハードル上がりそう)。

NICT 風間さんの「大規模分布類似度計算とその応用、未来」は自分も関心が高いところだったので、いろいろと参考になる。どちらかというと大規模分布類似度計算というよりは大規模クラスタリングとその応用の話ではあったが、質疑応答にも出ていた通り、1,000万単語のクラスタリングはウェブデータを対象にしていると馬鹿げた話でもない、というのが正直な感想。1億取ってきてもそんなゴミばかりでもなさそうだが、ロングテールを見ることができるのはものすごくデータがある場合に限るし、それだけのデータを持っているのは Google, Yahoo!, Microsoft くらいなのではないか、とも思う(中小企業、もしくは大学で集められるデータの規模だとたぶん100万単語くらいが限界？)。応用と未来に関しては、自分の問題意識と非常に近いところで、こういう研究もっとやりたいなぁ、と思っていたので、ちょっと嬉しい。論文などもこれから出てくると思うので、ここでは書かないでおこう(笑)

後半は東工大奥村研富田さんによる Markov Logic Network のチュートリアル + αの話。Markov Logic Network については前も書いたことがあるのだが、具体的にどういうふうにして使うのか知らなかったので、勉強になった。やれることは確かに増えるのだが、さまざまなヒューリスティックというかコツが分からないと使いこなせない感じ……。Markov Logic Network でうまく表現できる問題でないと効果がないので、矛盾みたいな制約をいかに使うかがカギってところかな？ (確率が出るのが嬉しいのかもしれないが、可能世界で事後確率最大になるような論理式を見つけるだけなら ILP でもいいような？　自分の理解合っているのか分からないが……。)　

学部生のころは哲学の研究をしていた人間としては可能世界(←哲学用語)とか言われると無駄に興奮するわけだが(笑)、哲学の内容を計算機で実現できる世の中ってのはすごいなぁ。(ま、そこは工学なので現実時間で終わるように近似したり少し賢い計算方法が必要だったりするけど)　こういうの、哲学しか見えてなかった学部生のころは、自分が生きている間にそんなものが実現すると思ってもいなかったが、現実のほうがあっさり想像を超えているという場合もあるのだと思う。そういう意味では哲学の研究している人も機械学習については押さえておいたほうがいいのでは、と感じることすらある(機械学習も要は帰納的に推論するということで、これは哲学の問題である)。

明日も京都に来る予定だが、今週京都にばかり来ていると研究進まないなぁ……。