仕様書のないコーパス

今日は今年度最後の研究会。進捗報告が2人と修士論文の発表会の練習が2人。

進捗報告でコーパスにどのようなタグづけがなされているのかの話になったのだが、仕様書なしでタグづけしているそうだ。さすがにそれは厳しいので、ちゃんと仕様書作らないといけないよね、と指導する立場の人が言わないといけないのではないかと……。(まあ、そのうち作るつもりなのだろうけど)

NAIST テキストコーパス照応関係タグ付きコーパス作成の指針があり、京大コーパスにはタグづけ基準マニュアルがあり、意見タグつきコーパスには意見タグつきコーパス仕様書があるように、仕様が決まらないでタグづけができるわけもなく。(もちろん仕様書のクオリティの善し悪しはあるが、ないとデータを見て推測するしかなくなるので、保守性が著しく悪くなる)

コーパスや辞書作成のような仕事は、農作業に似ているのではないかと思った。長時間の、地道な作業。半自動化できるところもあるのだが、基本的には手作業の部分が多い。向いている人は向いている。収穫にあたるような、なんか報われている感があるようなイベントがあるのかどうかは分からないが……。