MeCab 用医療用語辞書と分野適応の話

少し前のことであるがComeJisyoというものが公開されている。概要によると

医療従事者用の文書を形態素解析Mecabを利用して分かち書きするための用語辞書を作成し公開します.

とのことで、3万語以上医療用語が入っている辞書がオープンになったのは朗報。ちなみに ComeJisyo (ComeDic) という名前は、医師以外の医療従事者のことを指す「コメディカル」という言葉の先頭から取ったのかなと思われる。

形態素解析についてそんな詳しいわけでもないのだが、形態素解析というのは自然言語処理のあらゆる処理の基礎になるもので、大きく分けると単語分かち書き(日本語や中国語のように単語境界が明示されない言語では大問題)と品詞タグづけの処理に分けることができる。

分野が異なると専門用語がそもそも辞書に登録されていないので、たとえば企業でコールセンターの応答のデータに対して形態素解析をかけても、未知語だらけで単語分割にまず失敗し、そこから上の処理(構文解析だとか意味解析)に入る以前の問題で全然だめ、ということはよくあることで、専門分野の文章を処理したければ、その分野に適した処理をしなければならない。この処理のことを分野適応(domain adaptation)という。例として数字を上げると、新聞記事で学習した形態素解析器を別の分野でテストすると精度は7割くらいなのが、分野適応すると9割以上に上がるとか、そんな感じ。形態素解析から後の処理はここが間違っているとほぼ自動的に間違えるので、ここはほぼ100%合っていてほしい処理である。

自然言語処理でも最近盛んに分野適応が研究されているのだが、実用的には数千文にタグづけしたり、数千語規模の辞書を作ればそれなりの精度が出ることは分かっているので、企業なら数千文のタグ付けに20万と言われても「20万でコーパスができるなんて激安ですね」とぽーんと出してくれたりするし、研究的には「金と時間をかければできると分かったので終わり」なのかなと思う(そういうところに次の研究の種が埋まっているのかもしれないが)。

それで前の話に戻るのだが、医療用語の辞書を、しかも3万語無料で公開するというのは、なかなか太っ腹である。医療分野のテキストを解析したい人、形態素解析ブラックボックスとして使う人も多いかと思うのだが、お試しでやると数十万でもポンと出せる金額ではないし、こういう辞書があるのかないのかで、ものすごく結果が違うので……。