コーパス作成は XML に始まって XML に終わる

家で作業してみるが、e-mobile の低速回線で数百 MB のデータを転送するには無理があり、結局研究室に行くことに。MacBook Air 11インチ、特にディスクへの書き込みが遅いような気がする……。バージョン管理システムといえば rcs, cvs, svn のオールドタイプなので、Mercurial とか Git とか実はあまり使っていない。

Python から cabocha を呼ぶところがうまく行っていなかったのだが、向こうの環境では動いているらしく、理由が分からない。mecab から順番にコンパイルしてみると、どうも /usr/local/bin/mecab にインストールしても、/usr/lib/libmecab.so.2 にリンクすると、/etc/mecabrc を見に行くらしい……。

> LDFLAGS="-L/usr/local/lib -Wl,-rpath=/usr/local/lib" ./configure --with-charset=utf8

コンパイルしたらこちらは解決。同様に cabocha も /usr/lib/libmecab.so.2 を見に行くので、

> LDFLAGS="-L/usr/local/lib -Wl,-rpath=/usr/local/lib" ./configure --with-charset=UTF8 --with-posset=UNIDIC

しておくと、無事 /usr/local/etc/mecabrc を見るようになった。しかし問題はそこではなく、Python スクリプト内部での cabocha のオプションの指定方法が間違っていただけだった。そんな殺生な。

とりあえず cabocha が動くところまで確認し、自分は XML 処理をする。こちらはアノテータさんが必要なデータで、11月くらいから「いまのデータがそのうち終わるので、急ぎませんが用意しておいてもらえますか」と言われていて、年明け「そろそろほしいのですが、まだですか」と確認されて、言語処理学会の年次大会の原稿を出すまではひとまず待っていてもらっていたのであった。手が回っていなくてなんだか申し訳ない。

思えば XML との付き合いも長いわけだが、最近はコーパスXML で配られることも増えてきているので、自然言語処理の最初のとっかかりとしてアルバイトで XML プログラミングに触れたのは幸いだったのかもしれない。昨日解決したはずの問題を忘れていてまた踏んでしまったり (マージしてみて diff を眺めていたら気がついた)、Yahoo! 知恵袋氏ね!に苦しめられたり、なんとか8時間くらいかけて全部の問題を対処した、はず……。アドホックに対処するのでなく全部作り直したいのだが、すでにできているデータがある以上一気に変えるわけも行かず (本当は ID も全部振り直したい)、一区切りするところまでとりあえずなんとかこぎ着けたい一心である。

妻と電話していたら思わず終電を逃してしまったので、車で帰る。運転すると疲労が2倍 (翌日も車で来ないといけない) になるから、電車で帰りたいのだが……