精度を98%から99%にするプロセスをたのしむ

朝、高の原まで[twitter:@shuyo]さんをお迎えに。今日はNAISTで招待講演をお願いしたのである。途中大和路線 (「やまとろせん」かと思ったら、「やまとじせん」のようである) で電車が止まったりされていたようだが、なんとか合流。それとは別に、NAISTの入学を検討しているので少し話を聞きたい、という方もいらっしゃったので、3人で大学まで。

午前中はNAISTを検討されている方と、大学院についてお話したり。松本研希望の方だと、あまり自分の所属する研究室を宣伝して押し付けがましくなりたくないし、できるだけ中立になるように、研究したい内容を聞いて他の大学も数個お勧めしたりするのだが、やりたいこと的に言語処理は全然関係ないので、割合NAIST押しでお話してしまった (汗) もっとも、どの大学のどの研究室がどういうテーマで研究しているのか、専門分野以外では分からないので、お勧めしようもないのだが……。

お昼はNTTから合流された[twitter:@katsuhitosudoh]さんと[twitter:@haplotyper]さんを交え、福茂千 (ふくもち) へ。[twitter:@kevinduh]さんは知っていたのに[twitter:@tomo_wb]くんは知らなくてびっくりしたが、Kevinさん曰く「このあたりでお客さんが来たときに案内できるお店、少ないじゃない」と言われて納得……。実はこのあたり、同じ系列の店が何個かあるのだが、今回は「癒羅里福茂千」のほうに行く。20年前の計算機環境の昔話花を咲かせたり。ちょっと余裕で鍋を食べていたら少し時間が押してしまったので、申し訳ない。

講演はInfinity-gramによる短文言語判定というテーマでお話いただく (スライドはSlideshareで公開してくださっている)。長文があれば99%の実用的な精度で文章の言語判定を行うことは既にできるのだが、Twitter のような短い文章に対して言語判定を行うのは容易ではないため、3単語以上あれば精度99%以上で言語判定を行うことができる手法の確立を目標として研究を行った、というお話。

研究でも実は数理的にきれいな (新規性のある) 研究をするという人は一握りだし、実際精度向上に新しい手法が寄与するということは (労力の割に) 見合わないことが多々あり、@shuyo さんのお話も半分以上どのようにコーパスを構築したか、どのように正規化したか、といった前処理・後処理のプロセスを丁寧に話されていて、教員が言っても馬の耳に念仏かもしれないが、企業でバリバリに活躍してらっしゃる方に楽しそうに話していただくことができて大変ありがたい (笑) まあ、百聞は一見に如かずで、実際やってみて大変さを理解しないと、多くの学生がウェブテキストを研究対象にしたいと思うのも無理はないかなぁ。

ともあれ、貴重なお話どうもありがとうございました！

講演のあと[twitter:@neubig]さんに案内してもらって中村研で音声翻訳のデモを拝見したり。日英しかまだ動かないらしいが、それでもさくっとこういうのが作れてしまうのはすごいなぁ。松本研でもオープンキャンパスなどに向けて、こういうデモがほしいのだが……。

@shuyo さんを NTT にお送りしてから言語教育勉強会。今日の論文紹介は[twitter:@keiskS]くんが

Zhuowei Bao; Benny Kimelfeld; Yunyao Li, 2011. A Graph Approach to Spelling Correction in Domain-Centric Search. ACL 2011. http://aclweb.org/anthology-new/P/P11/P11-1091.pdf

を紹介してくれる。自分はこの論文の発表は聞いたことがあるのだが、論文をじっくり読んだことはなかったので、勉強になった。やっぱり日本語や中国語の形態素解析のように英語の誤り訂正を行っているようなのだが、細かい部分はいろいろと謎なところがあったり。自分で実装してみるといいのかなぁ。

進捗報告は[twitter:@shirayu]くん。最近の進捗について話してくれる。いろいろと事例を見せてくれ、問題が難しいということが分かるが、松本先生も含めてどうにも結論が出ず。まあ、こういう難しい事例が解決できるようになれば、研究的にも意味があると思う。(簡単に解けるところはすでに解けていて、難しいところだけ残っているということか)

勉強会もたっぷり3時間かかり、長かった一日が終わる。今週は予定がぎっちり詰まっているわぁ。