入力メソッドの始まりと終わり

午前中、久しぶりに暖かくいい天気になったので、急いで洗濯。昨日までは寒かったからなぁ。

お昼、[twitter:@tkng] さんが桃山御陵前まで来てくれたので、一緒に 饂の神 でうどん。最近のお仕事のお話を聞いたりだとか、自分の近況報告をしたりだとか。「おいしかったけど、小町さんがここに住んでいなかったらもう来ないだろうなぁ」とおっしゃっていて、確かにそうかも……と思ったりする。(自分自身、引っ越したらわざわざ桃山御陵前で降りることはほとんどなさそうに思うし)

出町柳で[twitter:@shirayu] くんと合流し、京大へ。ウェブ業界、特にソーシャルゲームってどうなの?というお話をしたりする。奈良にいるとこういう話に疎くなるので、ときどき東京に行ったり話を聞いたりすると勉強になる。

だいたいみなさん時間通り集まったので、第4回関西入力メソッドワークショップを開催。毎年年末に「IM飲み会」と呼ばれる入力メソッド関係者の忘年会を関西で開催しているのだが、飲み会だけというのもなんだし、というわけで、最近は昼の部とセットで開かれているのである。(昼の部があると参加しやすくなる人もいるし)

最初は自分がオープニング。といっても発表プログラムの紹介とライトニングトークの宣伝だけですぐ終了。よくよく考えると、あまり自分が音頭を取らないでよかったような気もする。

ついで [twitter:@tetsuokxxx]くんが言語モデルの圧縮について話してくれる。知らない人には勉強になっただろうし、会場にいる詳しい方々からもツッコミや質問がたくさん来たので、こういう場があったのはよかったと思う。

そして1人2分の自己紹介と近況報告セッション。@tetsuokxxx くんには申し訳ないが、少し遅刻してくる人を勘案に入れて、開始直後かつ休憩の直前に入れているのである。問題は、持ち時間2分にしてみたはいいものの、みなさん1分ほどで終えられて、予定の半分くらいで終了したことだが……。情報科学若手の会の自己紹介セッションは持ち時間1分30秒、スライドありでやっているが、半分以上知らない人を前にした自己紹介と、逆に半分以上知っている人を前にした自己紹介は違うのであろう。

休憩後、予定を繰り上げて [twitter:@shirayu] くんの発表。英作文支援システムについて話してくれて、会場からも盛んに質問、コメント、ディスカッションがあってよかった。やっぱり自分が使えるシステムだと反響も大きい、ということであろう。来年度以降も英作文支援の研究を続けていきたい。

続いて [twitter:@mhkoji] さんの発表。連語クラスn-gram を用いた統計的かな漢字変換について発表してくれる。日本語入力モデルとして普通とちょっと違うのは、P(かな漢字|かな文字列)という条件付き確率ではなくP(かな漢字,かな文字列)という同時確率を用いたモデル (表記と読みのペアで作成した言語モデルだけを用いたかな漢字変換) だというところだが、本研究のポイントはそこではなく、複数の頻出する単語列をまとめあげて一つの表現とする連語の使用と、モデルのサイズを圧縮するためのクラス言語モデルを同時に適用したところで、それぞれ効果があるらしい。

日本語書き言葉均衡コーパスのコアデータ5万文で学習と評価をしたそうで、文字単位の適合率・再現率・F値が89-90程度というのは低いかと思ったが、@tkng さんが識別モデルでやったときも同じデータで91くらいだったそうで、訓練にこのデータだけを使うのであれば、こんなものらしい。今は大規模なコーパスに読み推定をしたデータで言語モデルを作成中だそうで、それができたらもっと性能はよくなるだろうな。

休み時間に[twitter:@jun_hatori]さんが到着したので、自己紹介をしていただいたあと、自分が The Second Workshop on Advances in Text Input Methods (WTIM 2) の参加報告。参加した人、もっと多くなるかと思ったら、参加者は自分を入れて14人中3人だけだったので、10分くらいでさらっと終わるかと思いきや、質問やらコメントやらで30分ほど話す。日本にいる我々とすれば、来年開催するのか、そして開催するとしたらどこで開催するのか、ということだが、もし名古屋開催のIJCNLPのサテライトワークショップにするなら、京都開催も可能性としてはあるかも、という話を伺って、そういえば ACL が京都で開催されたとき、連動するワークショップを当時できたてのNAISTで開催した、というお話をときどき松本先生からお聞きするのを思い出した。大体は「もう自分がいるうちは NAIST で開く音頭は取らないだろう」という話で終わるが……。

そして[twitter:@takeda25]さんによる「用言活用を考慮したN-gramかな漢字変換」。既存の表記を単位とするn-gram は表記揺れに弱く、首尾一貫した書き方ができない、という問題があるので、語彙素を単位としてn-gram を構築し、語彙素から表記を生成するモデルを別に持つことでこの問題に対処する、という提案。活用しない単語は簡単で、活用する単語に関しては、n-gram を計算するとき、活用する動詞や形容動詞を原形で扱い、活用も特殊な単語として切り離してn-gramに含める、というアイデア。このようにすることで、直感的におかしな候補が生成されにくい、という利点があるようだ (副作用として、入力できなくなってしまう表現もあるかもしれないが)。シンプルだが、実用的だし、おもしろい。スペル誤り訂正も日本語入力に組み込めるとよいのだが、用言や機能語もこういうふうに分解したら扱いやすくなるのかな。

最後は今回新たに企画したライトニングトークのセッションで、飛び入りで@tkngさんと森さんにお願いする。@tkngさんは、先日 NIPS という機械学習のトップカンファレンスに参加されていた (PFI の社員紹介で肩書きが researcher になっているが、あれは間違いで、別に researcher ではないらしい) 報告をしてくださった。NIPSのトレンドと、@tkng さんイチオシの論文10本の紹介。自分が一番興味を持ったのは、[twitter:@kisa12012] さんも紹介されていた 「線」ではなく「箱」で最適化する話。おもしろそう。松本研でも毎年 NIPS 読み会的なものをやっていた気がするのだが、今年はまだやっていないような。M2 は修論で忙しいだろうから、誰か M1 の言い出しっぺ、求む。(M1 の所属するグループ的には、今年は DMLA が人数最大だったと思うし……)

森さんは、入力メソッドとは関係ないが、最近取り組まれているレシピの動画・言語処理についてお話くださる。東ロボ (東大に合格するロボット) プロジェクトもそうだが、一つ現実的な問題を決めて、できるだけ手法は汎用的に作る一方、ちゃんと問題が解決できたと言える水準まで取り組む、というのはそれなりに意義があることなのだろうなと思う。

[twitter:@yt76] さんのマシンがなぜかプロジェクタに接続できないので、いろいろいじっている間に [twitter:@overlast] さんに自己紹介をお願いしつつ、結局 USB メモリも SD カードも認識しないので、みんなでノート PC の周りに集まって恒例の「入力メソッド 10大ニュース」。今年は Wnn の湯浅先生や SKK の佐藤先生が退職されたのか。一つの時代であったように思う。新しく始まったことより、終わったことのほうが多い年であった。来年はどうなるだろうか……

清水屋 Nagomi というお店に移動して、7時から飲み会。出町柳から徒歩3分だそうだが、歩いたら5分はかかったような……。元々旅館だったところを改装しているそうで、中は年代相応だが個室を用意してくれて、料理も悪くなかったし、割と居心地よかった。

今日は2次会は遠慮して帰ってきたが、年末にふさわしい楽しい1日を飾ることができた。また来年もこうやって京都で開催できるといいな。