タグづけの難しさは人それぞれ

午前中、共同研究のミーティング。そもそも今日のこのミーティングの議題がなんだったか思い出せず、昨晩松本先生のところに行ってなんだったか聞いたら2人とも思い出せず、それならタグづけ作業のことでも話そうか、と事前に打ち合わせていたのだが、どうやら議題がなかったので正しかったらしい。なにかこちらでするべきことがあったような気がしていたのだが、忘れていなくてよかった……。

午後機械翻訳勉強会。今回から論文紹介と進捗報告を両方することになったので、長い長い。katsuhiko-h くんの進捗を聞き、いろいろと考えるところあり。自分もなにか参戦(援護射撃)したいものだが、なにができるのだろうか……

隣の研究室の留学生の人が研究の相談に乗ってほしいと来たので話してみたのだが、画像処理に関して全然分からないので手も足も出ない。こんなに意味不明だったのは久しぶり。パターン認識だったらまだ分かるかもと思ったのだが、そういう高次の話ではなく具体的な OpenGL の API の話だったのでお手上げ。申し訳ないことをした。

タグづけの文書を新旧見比べたりしているのだが、2005-6年当時と比べて相当変わっている (一応どれも議論には出てきていた覚えがある事例だが)。タグづけし続ける限りいろんな言語現象が出てきてコーパスも進化するのだなぁ。

先日(今年の8月くらい)NAIST テキストコーパス1.5 が公開され、京大コーパス4.0からデータを生成するようになった(のでダウンロードしたらすぐ使えるようになった)のでかなり使いやすくなったと思うのだが、公開されている仕様書が新しい仕様に追従していないようなので、まずはそこをいまの仕様書に反映し直すところから……(README に一応「論文参照のこと」と書いてあるが)。

以前 NAIST コーパスは新聞記事に対してタグづけしていたのだが、今回の日本語コーパスは新聞記事だけでなく白書・Yahoo!知恵袋・書籍についてもつけるので、いろんなジャンルがあるのだが、作業者さんに聞くとタグづけするジャンルによってつけやすさが違うらしい。アノテーションツールが長い文だと落ちるので作業しにくい、という技術的な問題もさることながら、長い文は行ったり来たりしないといけないし、総じて難しい。

で、Yahoo!知恵袋は1文・1記事短いので作業しやすいのかと思ったら、「読んでいてしょうもない内容ばかりで腹が立ってくるので作業しにくい」そうで……(新聞記事は長いけど作業はしやすいそうだ)。@tettsyunくんは「Yahoo!知恵袋は内容がおもしろかったのでタグづけしやすかった」と言っていたので、おもしろいと感じる人にお願いしたほうがいいんだろうか (爆)　(いや、知恵袋もいろんなトピックがあるので、たまたま当たったところがそういう文書だったのだろうけど)