自然言語処理リソースにまつわる諸問題

午後は研究会。和歌の解析はどうしたらいいか、という話題なのだが、@togisoさんが中古和文 UniDic を作っているので、MeCab でこれを使えばいいのではないかな? 古文を対象にした研究も一定の需要はあると思うので、こういうリソースが公開されているのはありがたい。

daiti-m さんがやっていたような教師なしの単語分割がスケールすれば教師なしでやるのもおもしろいかもしれないが、とりあえず分かち書きすることが目的なのであれば、少量のデータにタグ付けして学習するのがコスト的には妥当な判断だろう。(論文を見ると上記 UniDic は源氏物語と大和物語と土佐日記紫式部日記合計64,000語にタグ付けしたコーパスから学習しているようだ)

先日注文していたNTTの「基本語データベース」が到着。

基本語データベース:語義別単語親密度

基本語データベース:語義別単語親密度

これ、語義別の親密度データがそのままテキストで CD-ROM に入っているというすばらしい本である。なにが嬉しいかというと、岡山大の竹内さんらが作っている動詞項構造シソーラスではこのデータとのマッピングが取れるので、基本語DBから例文や単語の意味が取得できるのである。

また、動詞項構造シソーラスには動詞の深層格と表層格の対応の取れた格フレームが記述されているので、4400語(7500語義)規模の例文付きの動詞のデータベースが使えるというのはけっこう大きい。人手でタグづけするのは相当大変だったと思うが、こういうデータを地道に作っていくことが大事なんだと思う。(毎月のようにこの辞書は更新されているので、いまなら使っておかしいところがあればすぐ直してもらえるかも?!)

夜、今週のいつからか松本研で公開しているウェブサーバが高負荷で反応が鈍いので、いろいろ原因を潰していったのだが、どうやら日本語述語項構造解析器 SynCha の Web API とデモを公開しているのだが、Web API機械的にひたすら例文を投げている人がいるようで、それが重くしていた原因のようだ (一応そこまで異常な頻度のリクエストではなかったことを付記しておく)。

普段はこれでも問題になることはないのだが、どうも3つくらいの要因が重なってリクエストが被り、順々に遅延してはまっているようだったので、卒業生にメンテナンスしていないブログを移動してもらったり (しょっちゅうクローラにディープクローリングされていた)、スパムにまみれている Wiki (Hiki) を消して回ったりしたが、根本的な解決には至らず、ちょっとサービスを中断して申し訳ないなと思ったが、SynCha を稼働させているサーバを移動する (もっとも、過負荷でタイムアウトしたりするリクエストもたくさんあったので、いずれにせよ完全な結果は返っていなかったと思うが)。

実のところ、SynCha を公開してから卒業論文修士論文で「使いたいのだけどデータベースごともらえないか」という問い合わせが毎年数件あり、「データを出しにくい事情があるので Web API を使ってもらえると嬉しいです」と答えることがよくあったのだが、本気で使われると現在のサーバでは捌ききれなかった、ということが新たに分かった (汗) Web API だとリソースをサーバ側に置いておけばよく、クライアント側に見せなくてよい、というのは利点である。

で、データベースを公開しにくい理由は、市販のデータベースを使っていることだったりするのだが、いろいろ試した結果、述語項構造解析には EDR は使ったら精度が悪化、分類語彙表は若干効果あり、日本語語彙大系はけっこう効果あり (あるいは大規模データから抽出した共起データも)、ということが分かっており、こういう辞書やコーパスを地道に作って行くのは大事なんだなぁと思うのと同時に、闇雲に作っても必ずしも質の高いデータができるわけではないので、本当に気長に時間をかけて質を上げて行くしかないのかなと思ったり。

本音としては SynCha 自体はすでに3年以上メンテナンスしていないので、他のツールが登場して置き換えてくれればな、とずっと思っていたが、なかなか他の人が公開してくれないのがネック。今年、ようやく@shirayu くんが同じことをする yucha の公開を始めたので、こちらが安定してきたら SynCha の役目も終わりかなと思いつつ、今日の夕方使って別サーバにマイグレーションしたりして(現サーバは 32bit 新しいサーバは64bit でいろいろ手間取った)、一時的な延命になっただろうか……。ちなみに試したい人がいたらこちらからどうぞ

最近また日本語述語項構造のコーパスも作っているので、自分でも解析器を作る研究に戻ろうかなと思うところはあるのだが、戻るにしても前のコードは全部捨てて書き直すだろうなぁ。