自然言語処理研究のメッカ京大

いつも奈良先端大の紹介ばかりしているので、今日は他の大学の紹介もしてみようと思う。

(2013-07-22 追記) 2013年から首都大学東京 (旧都立大学) に自然言語処理の研究室を作ったので、こちらも今後ともどうぞよろしく :-) 高専生の編入、大学院からの入学もウェルカム。

自然言語処理といえば京都大学の長尾先生が有名で、京都大学の総長にまでなった人なのだが、現在は国会図書館の館長をしているので、そちらのほうが有名かもしれない。長尾先生は自然言語処理、特に機械翻訳を大きく進歩させたことで知られており、用例翻訳という手法に言及されるときはほぼ必ず長尾先生の論文が引用されるものである。

ちなみに @yotarowくんから教えてもらったが、今年の ACL (自然言語処理の最難関国際会議)のベストペーパーが発表されているが、ベストペーパーは事態性名詞の研究かな? (修士のころ日本語の事態性名詞の研究をしていた) いろいろあのあたりはやるべきことがあるし、昨日も書いたように言語学と計算機処理の境界の興味深い分野なので、また取り組みたいものである。

話はそれたが、このページの「Lifetime Achievement Award」というのを長尾先生が2003年に受賞されており、毎年1人自然言語処理分野で大きく貢献してきた人を一人選んで会場でトークをしてもらう、という会が開かれるのだが、世界的にも有名なのである。

さて、その長尾先生の最後の博士の学生さんが @zelchmixijpさんで、かな漢字変換を中心とする研究をされているのだが、京大河原研(音声系の研究室)で毎年優秀な学生さんがたくさんいるので、いろんなツールを公開されたりしている。

先日は @zelchmixijp さんがSIMPLE (Statistical Input Method for Personal Learning and Education; 仮)をリリースされているが、Perl で230行と、自然言語処理のアルゴリズムに詳しくない人が読んで勉強するには手頃な大きさなのではないかと思う。解説論文まで用意されているが (笑)

河原研というとやはりすごいのは @neubig さん。大学のほうのページを見てもらえれば分かるが、いろいろなソフトもリリースされている(そして手が早い!)。学振(DC1)だそうだが、超納得。京都テキスト解析ツールキット KyTea のモデルファイルのページを見ると、日本語用のモデルだけでなく中国語用の単語分割と読み推定のモデルも公開されており、すごいものである。

@caesar_wanyaさんの日記にも AROW (Adaptive Regularization Of Weight Vectors) の論文紹介のとき、@neubig さんがさくっと SVM との比較をやって紹介してくれたと書かれているし、さすがフットワーク軽い。ちなみにここで @neubig さんが使った AROW の実装は、松本研 M2 の @tettsyun くんが書いたAROW++ である。(ちょっと松本研の宣伝(笑))

あと京都大学と言って忘れちゃいけないのは黒橋研。松本研で作られた ChaSen が登場する前からあった形態素解析の Juman、そして係り受け解析器の KNP はこちらで作られたものである。そもそも KNP というのは「黒橋-長尾-解析器(Parser)」というのが名前の由来であるし、Juman も KNP もルールベースの解析器ではある(松本研で作っているのは全部機械学習)のだが、ウェブの文章なんかだと逆にルールベースのほうがうまく解析できることもあるので、単にアプローチの違いかなという気はする。

学生さん的には、最近は @murawaki さんが COLING (自然言語処理の分野で古くからある有名な会議)に論文を通したり、精力的に活躍されている。未知語獲得が専門で、自然言語処理やっている若い人には珍しく(?)言語学についても興味(以前未踏ユースで「キリル文字モンゴル語形態素解析器の開発」というテーマで開発されていたこともある)　彼は今年の夏3ヶ月シリコンバレーにいるので、周辺の方見かけたらいろいろ聞いてみてください :-)