言語処理学会チュートリアル

今日は言語処理学会年次大会のチュートリアルの日。今年の年次大会は東大の駒場キャンパスである。途中1年オーストラリアに行っていたが、7年間通っていた場所なので感慨深い。こういう形で再訪することになるとは思っていなかったけど……

チュートリアル最初は「話し言葉音声認識」。講師の一人目の李さんは元々 NAIST助教だったそうで、授業でも講師で来てくれていたし、話としては全部音情報処理論IIの授業で聞いた内容。個人的には出なくてもよかったかなと思ったが、最近の音声認識の発展について聞いたことない人が聞いたらとてもよくまとまっている内容で参考になったのではないかと思う。

2つ目は「半教師あり学習による分類法: -現状と自然言語処理への適用-」という題で、大規模なデータを機械学習で処理するに当たって最近半教師あり学習という手法が注目されているのだが、「半教師あり学習って未来がありますよね」という話。これまでもちょぼちょぼと半教師あり学習について個々のアプローチについては勉強したことがあったのだが、全体を俯瞰して体系的にまとめた話は読んだことなかったので、すっきりした。確かに「半教師あり学習って使えそう」という気になる。これ資料をどこかで公開してもらえると嬉しい人がけっこういそうだ。

昼休み O 野原くんから Wikipediaはてなキーワードから読みつき単語辞書を作る話を聞く。はてなキーワードはけっこうきれいなのでそのまま使えるが、Wikipedia は人手で直したりしているらしい。先日 ut さんにはてなキーワードから抽出した単語辞書をもらって、かなり使えそうな印象があったので、あまり人手はかけたくないところだし、とりあえずはてなキーワードを使うかなー。はてなキーワードは最近の人名とか商品名とかの固有表現が20万語入っているのだが、Wikipedia のほうが少しノイズがあるが40万語くらいの大きさあるので、多少の人手を厭わないのであれば Wikipedia 辞書も使った方がいいそうだ。

3つ目は「語彙意味論に基づく言語資源の構築」という題で、岡山大の竹内さんと NICT の黒田さんがトーク。竹内さんは辞書作り dos and donts という感じで、実際辞書作っているなあというトークでとてもおもしろかった。(辞書とかコーパスは作った人でないと作っている人の話は分からないと思う……)

最後は「言語コーパスとコロケーション」。文系の方が講演されたようで、話としては既知だったが、話し方がとてもうまく、楽しかった。トークの最中各所から笑いが起こるのはこのトークだけだった。ああいう話し方は参考にしたい。

夕方は自然言語処理若手の会の会合だったのだが、先約があったので失礼して渋谷ハチ公前。shuya-a さんと takahi-i さんと合流してご飯に。しばらく遅れて takeki くんも来る。最近の仕事の話を聞いたのだが、最近の彼の仕事は「ちょっと明日までにこれ微分してきて」らしい(笑)