KNP

amd64 の計算機を再インストールしたので、以前入っていたソフトを入れ直すという作業をしているのだが、以前のシステムは Fedora Core 3 という Linux ディストリビューションで、今回のシステムは Gentoo に変えたので、物によってはパッケージがない(つまり自動ではインストールできない)ものもある。

自動でできないからといって手で入れるのもなんかな、ということで、Gentoo 用のパッケージを一つ一つ作ってはパッケージとして自動インストール、なんてことをここ2週間くらいぼちぼちやっているのだが、今日は 日本語形態素解析システム JUMAN日本語構文解析システム KNP というものをパッケージにしてみた。(しばらくテストするのですぐには本家ツリーに入れないけど)

日本語の形態素解析システムとしては松本研で開発されているChaSen 茶筌(MS-IME とかことえりでは茶筅が候補に出るが正しくはこっちの漢字)が有名だが、他にも今年3月まで松本研にいた taku-ku さんが作った MeCab 和布蕪 とか商用では Basis Technology 社が開発しているものとかいろいろある。Gentoo には既に app-text/chasen と app-text/mecab パッケージが存在するので、これで日本語の形態素解析器は3つ目となる。

一方の日本語の構文解析システムとは、文節間の係り受け関係(どの文節がどの文節を修飾しているかとか)を解析してくれるもので、これまた taku-ku さんが書いている CaboCha 南瓜 が KNP と並んでよく使われている構文解析システムで、こちらは既に app-text/cabocha としてパッケージにしてある。ちなみに KNP というのは「黒橋・長尾・パーザー」の頭文字を取ったものらしい。NHK みたいでいかしたネーミングセンスだ。

一度作ると他の人が入れるのがとても楽になるので、ときどきは多少がんばってみるのもいいものだ。