第1回入力メソッドワークショップ(という名の飲み会)

昨年一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝!)ので、なかなか緊張する。

出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。

今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室の笹田さん、あとは自分の紹介で U 海さん、最近 uim をいじってらっしゃる @iratqq さん、忘年会に参加しそびれたという id:ninjinkunSCIM-Anthy や霞を開発されている bluedwarf さんと makoto-y くん。段々入力メソッドじゃなくなってきたかもしれないが、キニシナイ(笑)

遅刻者が数名いたので発表順番を前後して tabatee さんが開会の辞。2008年入力メソッド業界の5大ニュースの一つに ChaIME 開発を載せてもらってありがたい限り。tabatee さんがいないとやはりこういう会も開催されなかっただろうなぁ、と思う。続いて自分の発表。話自体は9月の情報処理学会夏のプログラミングシンポジウムや NLP 若手の会で話した内容とほとんど同じで、最後クラスタリングアルゴリズムを説明するスライドが数枚追加された程度。現在単語×単語の2グラムでやっているのだが、それをクラス×クラス(クラス数は自分で決める)の2グラムにするとサイズは劇的に減らせるが精度が悪化するので、クラス×単語の2グラムでやろう、という話。森さんも実は単語クラスタリングは前職でやったそうで、モデルのサイズは1/10程度になり、精度がわずかばかりだけど向上した、というくらいだったそうだ。機械翻訳で単語クラスタリングしても同じような結果が出ていた、たぶんその程度かなと思っていたので、納得。

休憩を挟んで bluedwarf さんの「OpenOffice.org の日本語処理」。日本語処理というよりは OOo の開発体制に関する質問がいっぱい。Sun がけっこう開発の決定に関わっているというのは意外だが、あそこまで(モジュールの依存関係の図を見せてもらった)巨大だと、誰かが舵取りしないと無理なんだろうなぁ。逆に組織的なテスターがいないというのは、企業の製品じゃないと用意するのは難しいのか、と考えさせられた。続いて森さんの「統計的仮名漢字変換のための言語資源の状況」という話、辞書作りからコーパス作り、変換精度向上や分野適応までいろいろなトピックがあって参考になった。自然言語処理の研究者のほうが楽しめる内容だったかもしれない(おおっと)が、フリーの IM をいま実際作っている人からすると、かなりいろいろなデータを準備してくれているので、森さんに相談するとよいかもしれない。

最後のセッションは森さんの研究室の M2 の笹田さんによる「テキストと音声からの仮名漢字変換用追加語彙の自動獲得」。急にお願いして話してもらうことになったので申し訳なかったが、かな漢字変換にも使える辞書を構築する、という話を研究として実際に進めていて、しかも評価をかな漢字変換でしている、というのですばらしい。こういうふうに研究でかな漢字変換を使えるストーリーがあると(ずいぶん下火になってしまったが)フリーのかな漢字変換も盛り上がっていいのではないかな、と思う。そしてちょっとかな漢字変換とは関係ないが、yoriyuki さんによる「未来言語 Agda」のお話。Haskell のような言語に見えるが、証明もプログラムの中に書ける、というのがウリらしい。むしろ補完が強力な Coq、というのがふさわしいのかもしれない。Agda は未来言語なので自然数を表す N は Unicode で入力しないといけないらしいのだが、わざわざそれが入力できるような入力メソッドが用意されているそうだ! (←このあたりが IM) 補完がこれからの(日本語に限らずプログラミング言語でも)入力の主流になるというのは間違いないところだと思うが、あらゆる言語の入力を(理論面かつ実装面で)統一的に扱えるといいと思うのだけどなぁ。

そしてちょっと飲み会の時間を遅らせて、id:naoya さんが「はてなブックマークの裏側」という発表をしてくれる。はてなの裏側のデータサイズとか、アルゴリズムとか、やっぱり理論と実装といい塩梅でやっているんだなぁ、と納得。自分としても、要素技術に近いところの研究でも、はてなみたいなところが使ってもらえるような研究をしたいと思うのだが……。飛び入りで発表してくださってどうもありがとうございました!

飲み会は2時間の予定だったが気がついたら22:30。終電逃した人もいたようで、申し訳ないが、盛り上がりまくり(笑) 来年もぜひ開催しましょう! NAIST 組(makoto-y くん、id:ninjinkun と U 海さん)は4人で2次会。結局3時まで飲んでいた……。