言語処理学会2009年年次大会本会議初日: 識別学習による未知語獲得

朝4時半に起きて東京発朝一の鳥取行きの飛行機に。それでも一本乗り過ごしてしまったようで、羽田空港に着いたのが離陸15分前だったので、かなりどきどきした。たまたま O 野原くんの隣の席だったのだが、関係者多いな〜。朝早かったので離陸直後から爆睡してしまったが……。

午前中聞いたのは「テーマセッション:実社会に求められる自然言語処理(1)」で、面白かったのは高橋哲朗さんの「スプログの調査と実システムにおける判別手法」かな。コピペ・テンプレートで一部だけ変わっているようなスプログ、けっこうあるようで、それが高速に検知できると嬉しいだろうな。でも(tooru-h さんの質問にもあったが)「8割以上の文が共通ならスプログ」というの、本当は精度と再現率をちゃんと計らないといけないので、速度だけ比較しているのはちょっとツッコミたくはなる。

午後はポスター。現在 Yahoo! 研究所で共同研究していて、shimpei-m くんの研究にも共著者として加わっていたので、ポスターの横にいたのだが、助け船は出さないでも大丈夫だったようだ。思ったよりも人はたくさん来てくれたようで、お疲れさまでした(どうも壁際・窓際の場合人が少ない傾向にあるようだ)。厳しいツッコミとしては「小町くんが Microsoft にいたときの研究とどこが違うの？」というツッコミがあったのだが、開発的には彼が再実装したということと、研究的には検索クエリログをもう少し詳しく分析してみた、というところかな？　自分の研究は自分の研究として現在絶賛実験中で、そのうちどこかに投稿予定なので、しばしお待ちを。

夕方は「語彙・辞書(2)」に出てみた。このセッションはどの発表もおもしろかったので甲乙つけがたいが、あえて一つ選ぶとすると鍛治さんの「文脈にもとづく未知語獲得における識別モデルの適用」かな。要は「ググる」みたいな未知語(その一部は新語)をどうにかしたいという問題で、ひとつは未知語をうまく判別するモデルを解析に組み込むという方法、もう一つは大規模なコーパスに出現する未知語をひたすら辞書に追加するという方法があるのだが、この研究は後者のアプローチ。1.7億文の Web 文書に対して適応できるアルゴリズムで、うまくパターンを作ればできそう、というところが工夫のしどころで、未知語候補の中から未知語でないものと真の未知語を分類するという問題に帰着して解くという方針である。詳しくは論文を参照してもらいたいが、具体的にこれで取れた単語としては「兄ィ，腐女子，音樂，特盛」とか「甘っちょろい，ヤヴァい，ムズ痒い」とか「逆ギレ，怪演，マターリ」といったものがあるようだ(笑)

あと emiko-y さんの複合語解析の話も好評で、質疑応答が異様に活発であった。「こういう解析を ChaSen に組み込んでほしい」みたいな話があったが、最近の CoNLL shared task (自然言語処理に関する共通タスクを毎年設定して会議を開いている)の依存構造解析は単語単位の係り受け器を作るタスクであり、そういう意味ではもう「日本語の単語単位の係り受け解析器」はできている。ただ、CoNLL のデータは日本語でも全部ローマ字にしたデータで訓練データが作られているので、実際に応用しようとすると簡単ではない。(つまり、単語単位の係り受けがついたデータはあるがそれはローマ字で、逆にかな漢字交じり文のデータは文節単位の係り受けしかついていない)　いずれにせよデータ次第、ということかなぁ。

夜は NLP 若手の会の懇親会に出る。アラフォー・アラサー(?)のテーブルだったので、若手若手してはいなかったが、楽しかった。この日記の読者さんたちと会い、励まされる。ぼちぼち更新していきますので、よろしくおつきあいください :-)　2次会にも行ったのだが、睡眠不足気味だったので途中で抜けて11時半。最後1時半くらいまでやっていたそうだ。みなさんお強い……。2次会行ったのははじめてだったが、確かにこれはこれでおもしろかったので、来年以降も出てみようかな？