自然言語処理若手の会(2)

2日目。朝 masayu-a さんと駅前に来るはずのホテル送迎バスを待っていたら、華麗にスルーされる。masayu-a さんが電話したところ「すみません、次の(30分後の)バスに乗ってください」とのこと。なんだかなー。別の人は「タクシーで来てください」と言われたとか……。今回のシンポジウムはホテルの送迎についてはあまり対応がよろしくなかった。会場はポスターもそれなりに広すぎず狭すぎず、活発に議論がされていて非常によかったと思うけど……

午前中は眠かったがいくつかおもしろい発表。萩原さんが MSR での今年のインターンシップでやった「意味的類似度を利用した日本語クエリ書き換えのための統一的アプローチ」の話、日本語固有の問題と対処といろいろあって(かなりいろいろやっていたようだが……)おもしろそうだった。クリックのデータが使えるならそれを直接使う方が(素性として単に足すこともできるし)素直な気がしたのと、ノイマンカーネルみたいなカーネルを使って類似度を計算すると(ちゃんと正規化しないと)あまり類似度スコア自体に意味ないんじゃないかな、と思った(たとえば検索エンジンでも普通「この検索結果のスコアは0.873ですよ」なんて表示されない。というのも、ランキング、つまりスコアの相対関係がたいてい重要だからで、グラフ上のカーネルを使う場合も、値自体は相互情報量と同じでそのまま使うものでもないんじゃないかという気がする)

もう一つは鍛冶さんの「大規模時系列ウェブコーパスを用いた新造語の盛衰のダイナミズムの分析」(今回の発表での最優秀奨励賞だったそうだ)。WWW に出現するデータを毎年アーカイブしているので、新語に関してそれがいつ・どのように出てきたのか、というのを追跡することができ、言語学の研究者の手助けに使える、という話。言語学の人からすると自然言語処理ってせいぜいコーパスから頻度情報や周辺文脈取るくらいの使い方しか想定していないのかもしれないが、こういう新しい研究につながる支援ができると非常にいいと思う。

午後も眠かったが、一つ挙げるとすると岡崎さんの「用語バリエーションの認識と正規化」の話がおもしろい。これまで岡崎さんは略語認識の研究をしばらくされていたが、やはり正規化の方向に行くのだな、という感じ。スペル訂正や代表表記でのまとめあげなど、用語のバリエーションの認識は非常に応用範囲が広い研究だと思っている(特にユーザの入力に一番近いところなので、入力誤りやバリエーションが多いのは本質的)。今回は単語同士の中身の比較でしているが、上記萩原さんの研究と同じく周辺の文脈の類似性を見て似ている単語を認識する方向から攻める手もあるし、実現するとインパクトあると思うのだけど……

最後のセッションでは「ChaIME: 大規模コーパスを用いた統計的かな漢字変換」というポスターで話してきた。他のポスターと比べるとコアな人たちが集まって議論していた気がするが、いろいろコメントもらって楽しかった。自然言語処理分野の人たちの前でこの内容について話すのは(研究室を除くと)初めてだったが、なるほどと思うコメントも。実は O 野原くんが言っていたアイデアは今年の年次大会で森さんも言っていたアイデアなのだが、実装して当たったら山分けしましょう(笑)

時間押していたので、こだまグリーン車を予約していたが、予定変更してひかりで帰ることに。京都から近鉄で NTT CS 研の方々と話しつつ帰宅。H 中さんいつも午後2時出社と聞いて自分も励まされる(笑) 論文書いていたらいつ来ていつ帰っても文句言われないという環境なのだなー