ATOK の辞書をつくる

@klmquasi さんのお勧めで

電脳日本語論

電脳日本語論

を読んでみる。これはジャストシステムの開発者の人から辞書を作っていた人、そして ATOK 監修委員会のできるまでとできてから、などなどをまとめた本であり、日本語入力や計算機上の日本語処理に興味のある人が読むと、とてもおもしろいだろう(2003年の本で新し目だし、これはお勧め)。後述するが、これはぜひみなさんに買って読んでもらいたい。

Google 日本語入力ができてから、日本語入力は規範的であるべき(たとえば「ら抜き表現」は日本語として「間違っている」ので変換できないようにするとか)か記述的であるべき(実際言語は変わりうるものであり、使う人がそう書きたいのであれば、変換できるべき)かという問題に改めてスポットライトが当たったように思う(特に Google 日本語入力の予測入力部分)が、ATOK はかなり早いうちから規範的入力メソッドたらんとして監修委員会を作り、コンピュータ上での日本語入力に対してひとつの態度を示してきた点で、もっと評価されるべきであると思う(「ATOK言葉狩り」と揶揄されることもあるが)。

統計的にかな漢字変換を作るとどうしても記述的にしか作ることができないので、規範的にやるのであればなにがしかの判断が必要だし、軸がぶれず、継続的に面倒を見るという覚悟がないと無理だと思うが、そういう道を選択するのは大変だったのだろう。あと、これは強調して強調しすぎることはないと思うが、辞書データなどアプリケーションに必要なリソースを作成するのはお金もさることながら途方も無い時間と訓練と忍耐が必要であり、これができる会社(言い換えると、歴史的に偶然ながら成功した会社)はたぶんジャストシステムくらいなのだろう。

そういう意味で、第5章の「「IMEの辞書を作る」という仕事」という章は、自然言語処理に携わる人全員が読むべきだと思う(特にそういう地道で気が狂いそうになる作業を知らない学生)。サプタイトルには「かつて、ATOK の辞書開発で活躍した、三名の辞書チームOGを中心にきく。」とあるが、これはすごいドキュメントである。節名に「精神を痛めつけるその作業」とあるように、これは(自分もやったことあるが)適性のない人にはつらい作業だろうなー、と思うのである。p.147から少し引用すると、

藤川 出社してから退社するまで画面上の語彙リストとにらめっこです。佳境に入ったら、週に七二時間もリストとにらめっこしていることもありました。データの細かい字を長く見続けていると、だんだん酸欠状態になってくるんです。空気の足りない金魚のように、口をぱくぱくさせて……。その後、ランナーズハイみたいな状態になってくる。これを通り越すと危ないので、「これ以上は耐えられないから、少しドライブして気分転換してくる」と言って外に出て行っちゃう人もいるんです。記憶に残っているのは、「これはできません」と阿望さんに言ったら、「それは物理的にできないのか、精神的にできないのか」と訊かれたこと。「その両方じゃ!」と心の中では思ったのですが、そんなことも言えなくて(笑)。でも、精神的にできなくなることのほうがつらいですね。

という具合で、この藤川さんという人は読むかぎりかなり辞書作成に適性のある人だと思うのだが(適性のない人は週に7時間でも音を上げると思う)、それでもこんな具合である。週72時間て、休日返上で働いても1日10時間だし、しかもそれもひたすら文字を見続けるという(集中力が切れると結局また見直さないといけないため、時間の無駄になるし、テンションずっと上げたまま見続けないといけない)途方もない作業なのである。自分もこの章読んでいて涙が出てきた(実話)。

脇谷 辞書チームへの配属は、元から言葉が好きだったので、自分から希望したんです。性格的に営業向きではないので、研究・開発方面でいこうと思っていました。性格的に合わない人は、この部署では耐えられないと思います。なかなか成果がはっきり見えないので、誉められることはほとんどありませんし。逆に誤変換などで粗は目立ちやすいので、責められることが多くて、精神的にも厳しい作業でした。その代わり、雑誌の比較記事などで、変換成績や登録語彙でATOKが勝っていると、報われたようでうれしかったです。
芝岡 私も希望して辞書チームに入ったんです。コツコツと地道にやっていく仕事がいいと思って希望したんです。同期もひとりいるんですが、彼女も希望して入ってきたそうです。
[...]
鳥飼 辞書の編纂セクションに入るような人は、紙の辞書の場合でも、入社の前から辞書をやる、と決めている人が多いんです。
[...]
藤川 画面いっぱいの語彙リストを見て駄目、チェックするのも辛いという人は、自然と淘汰されていくんです。そこをクリアできれば、だいたいのコンセンサスは取れていくんです。

自然言語処理なんて言うと機械学習使ったり大規模データ使ったりして華々しい面に憧れて入ってくる学生が多い(外から見ても、プログラム書いたりする仕事がすごそうに見える。いや、実際それもすごいのだけど)のではないかと思うが、実際自然言語処理で大事なのはそういうツールやライブラリ(手法)を作るのを可能にしているのは、こうやって辞書なりコーパスなりを作ってくれている人のおかげであって、それは忘れてはいけないことだと思うし、彼ら・彼女らを評価してもしすぎることはない。そういう面倒なことを避けてきらぴやかな面だけを見てはいけないと思う(いや、自分も結局いまはコーパス作っていないので、人のことは言えないのだが……)。

松本研でも公開している辞書やコーパスがあるのだが、NAIST テキストコーパスを作っているryu-i さんは、修士の2年間ずっと一緒に研究をしていたが、心底尊敬する。コーパスにタグをつけているアルバイトの作業者さんも数名(全員女性)協力していただいていたのだが、彼女らの力なしにはこういうコーパスや辞書は絶対作成できないと思うし、こういう辞書やコーパスを作成する人たちを常時雇用していられる研究室(現在研究室に4名いらっしゃる)というのが、松本研を松本研たらしめていることは疑いない。他にコーバスではなく辞書ではmasayu-a さんも、nozomi-k さんもすごい。恐れ多いが、自分が M1 で入ったとき D2 だった nozomi-k さんはほとんど話すことがなかったのだが、その後 M2 になってからコーパス作成や辞書作成で話を聞くことが増え、自分でも実際にコーパスや辞書にタグづけしてみて、この人は信じがたいほど根気強く、こんな作業を足かけ7年も続けているのか(そして「わたしこういう作業好きですから」と心底楽しそうに言ってくれる)、と仰天したものである。

そういう果てしない作業をしていてつらくないのかなと思うこともあるのだが、最後の彼女らのこういう一言に救われる。

脇谷 私は退社してもうずいぶん経ちますが、新聞を見ていると、この語彙は今のATOKに入ってるかなあ、とつい気になるんです。
芝岡 私も、退職後の今でも実はATOKの誤変換を独自に書きためているんです(笑)。

やっぱり、好きじゃないとできないというか、好きかどうかという次元を超えて、そういうことをするのが自分の天職のように思える人、それをするのが自分にとってとても自然な人、そういう人がいるというのは、とてもありがたいことなんだなーと思う。(こんな話を聞いたら nozomi-k さんなんかは「うんうん」と言ってそう……)