思い出のカレー

朝は妻を新大宮まで車で送る(昨日から一緒に暮らしている)。少し渋滞していたが、NAIST の寮から35分。そんなに遠くない。帰りは渋滞していなかったので30分で戻ってくる。

昼は勉強会x2。松本先生と少し今後の予定について話す(詳しくは明日の研究会以降)。松本研から COLING 出した人は自分と hideharu-o くん以外は大体通ったらしい。そうだったのか……。松本先生は shimbo さんと少し話したようだが、「小町くんのは EMNLP 向きだし、気を落とさないで書き直して出しましょう」ということであった。

週末いない間回していたプログラムが死んでいたので回し直し。1回走らせるのに1日半かかるのだが……(そして研究会担当は水曜日)。

taku さんのところ経由でAnthy-YahooJIMService。先日公開されたかりだというのに、さすが……。

5月が予想外に忙しくなったので如何ともし難かったが、またかな漢字変換をいじり始める。そろそろ未知語について一言言っておくか、という気になる。データが少ししか使えないときにどうするか問題。

これまではデータが大量にあればよくなるというのは、直感的にはよくなりそうだが実験的に確かめられていなかったが、最近の知見(Google とか NTT の方々の努力)によると、やはりデータを足せばどんどんよくなるということのようだが、そこまでデータを使えない環境(たとえば機械翻訳でも英語-アラビア語や英語-中国語みたいなデータがふんだんに使えるのもあれば、日本語-スペイン語のように、辞書もデータもないものも)もやっぱりあるし、そういうときには未知語の問題をしっかり処理しないといけない。

知らないとどうしようもないものは辞書みたいなデータとして集めておくしかないのだけど、知っているデータをかき集めればなんとかなるものや、知っているデータだけど曖昧性があって文脈を見ないとどちらか分からない、といったものをどうするかなんだけど、おもしろそうな話になるかなあー