手書き文字を認識するのはコンピュータどころか人間でも難しい

情報処理学会の人文科学とコンピュータシンポジウム、じんもんこん2011に参加する。今回は [twitter:@togiso] さんのポスター発表。

会場は龍谷大学文学部で、京都駅から徒歩10分とかからない。本願寺の真横である。こんなところにあったのか〜。もともと西本願寺の学寮として17世紀に創立されたのが起源らしく、文学部は非常に伝統のある感じで趣があっていい。そもそも本願寺、まだ一度も足を踏み入れたことがないのだが……(前出町柳から車で帰るとき堀川通を南下して帰ったときに横を通過したが)

この研究会に参加するのは初めてだったが、画像処理から言語処理までいろんな話題があっておもしろい。teruaki-o くんが「NAIST で言えば、いろんな研究室の発表が一度に聞ける学生発表のような感じですね」(学生レベルの研究、という意味ではなく、トピックが幅広い、という意味) と言っていたが、確かにその通り。

お昼は @togiso さんのご紹介で相場研究室の方々とご一緒する。所変われば品変わる。その分野の専門家がいないと、全然違うところを掘っている可能性があるので、意味のあるタスク設定をするにはエンジニア (工学部の人) は専門家と一緒にやったほうがいいんだろうな。

お昼ご飯後、配布された拝観券で龍谷ミュージアムに足を運ぶ。西本願寺の真ん前なので、歩いてすぐ。今年できたばかりだそうで、建物も相当きれい。展示は2Fと3Fで、ちょっと見る、というには悪くないくらいかな。基本的には大谷探検隊の足跡を追う、という感じ。ちょっと物足りない感はあるが、国立博物館と比較しても仕方ないか。

午後は文字に関するセッションに出てみる。K林T生さんとかM岡さんとか初めて拝見する。文字コードの相当コアな話をしているにだが、参加者の半数以上は話が分かっているらしい。そうか、こういう分野に興味がある人はこの学会に来ていたのか……。

自分が今日聞いていちばんおもしろかったのは、筑波大学永井さんの「古代エジプト神官文字の画像を利用した字形データベースについて:中エジプト語の資料を中心とした事例紹介」という発表。エジプトで昔使われていた文字にヒエログリフ (神官文字) とデモティック (民衆文字) というものがあり、一般的にはヒエログリフ筆記体がデモティックだと思われていたが、実は1:mでもn:1でもなく、ヒエログリフとデモティックの文字の対応は一般にm:nなので、正字筆記体という関係ではなく、別の文字だと考えたほうがよい、という刺激的な内容。ちなみに、ヒエログリフとデモティックはロゼッタストーンギリシャ語・ヒエログリフ・デモティックの3通りの文字で同じ内容が書かれていたので、解読が進んだ、という経緯がある。

さて、過去の研究ではどの筆記された文字をどう読むか、というのは、100年前に出版された本にある文字の対応表を見てやるのが「定説」で、エジプト学の専門家も誰かが手で書かれた文字を「活字」に直したものを用いてやるのが普通だったそうだ。そして、その「活字」に用いられているのがヒエログリフである。研究者であっても生の文字を見るよりは書き起したものを使ってやるのが普通だが、これに異を唱えたい、というのがこの研究の狙い。

そこから先がこの研究の非凡 (いや、あるいは平凡であることが非凡) なところで、彼はある物語を一冊選び (撮影のためにロシアに飛び)、そこに出現する全ての文字の画像キャプチャに対し、文字ごとに切り出し、どの画像がどの文字に対応するのか、ということを全部タグ付けしてデータベース化し、検索可能にした、とのこと。たとえば "m" で検索すると、物語の中で "m" が使われているところが全部表示され、画像と文脈とともに一覧することができる、と。(ちなみに DB では AccessFileMaker を使っている)

この仕事によって文字の使用頻度などの調査が世界で初めてできるようになった、というのも驚きではあるが、一つ一つ文字を切り出してタグ付けする、というのは気の遠くなるほど地道な作業で、これを博士論文の仕事として上梓した、というのは本当にびっくり。こういう根気が必要で粘り強くやらなければならない研究はもっと評価されてよいと思うのであった (1-2年のスパンで成果を出し続けないと大学に残れないようないまのシステムはちょっとこのような地道な研究のサイクルに合っていないのが残念)。

以前書いたが、自分も中学1年のとき古文の授業で1学期のあいだずっと「変体仮名 (平安時代の手書き文字)」で書かれた文章を読んでいたが、まず中学に入学して最初に配られた本がこういう変体仮名の一覧が載っている冊子で、たとえば「か」という文字には元になった漢字から「可」「賀」「歌 (の編の部分)」などがあるのだが、それぞれの文字について数十個「この文字は『か (可)』である」という事例が書かれているのである。この冊子を渡された中1の生徒たちは、手書きで書かれた実際の平安時代の文章と変体仮名の冊子を頼りに、自分に割り振られた部分になにが書かれているのか読み取って報告する、というのが古文の授業であった。

こういう授業を受けていたので、デモティックで書かれた文章にタグ付けするというのがどのくらい大変か (人間でも相当訓練しないと筆記体は読めない。そもそもどこが文字の切れ目か分からない。日本語は知っているはずなのに!)、というのがありありと想像できて、ちょっと感動して泣けてきたくらいである。

また、同じ古文の授業で確か2学期か3学期は「伊曾保物語 (いそほものがたり)」という江戸時代に書かれた物語を読んだのだが、これは一般的には「イソップ物語」として知られている物語のことで、口語訳のローマ字で書かれていたものなので、実は現代の単語と同じ単語でも、江戸時代は違う発音をしていた単語がある、ということが、ローマ字で書かれているために分かったりするのである (たとえば、いま日本語で「はは」という単語は昔「ふぁふぁ」と発音されていて、その前は「ぱぱ」と発音されていたと推測されるのだが、「伊曾保物語」では「Fafa」と書かれている、とか。こちらも参考)。これも、「日葡辞書」という日本語をポルトガル語で説明した辞書の一部が配布されて、それぞれローマ字で書かれた見出しを見ることで江戸時代の発音が推測できる、とかいうのを知って、子ども心にすごいものだ、と思ったものである。

こういうことを学校で訓練されていると、前処理されたデータだけで分かった気になっちゃいけない、とときどき思うのである。センター試験の解き方なんてのは6年間で1回も習った記憶はないのだが、いま考えると中高時代ああいう経験ができてよかったなぁ、と思う。高3のとき学校で受験勉強しようとしたら「そんなことは家でやりなさい、学校では学問をやりなさい」と叱られたりとか、「学校の勉強だけしっかりやっていれば東大でも受かるので、塾や予備校には通わせなくていいです」と止められたりとか、おおよそ受験に背を向けた学校だったと思うが、受験を考えるとああいう大らかな教育を維持するのは大変だろう。とはいえ、個人的には、ああいう趣味に走った教育を今後とも続けて行ってもらいたいものである (偏差値の高い大学に子どもを入れたい親御さんたち的にはとんでもない話かもしれないが……)。

そういえば、学習指導会って2005年に消滅していたのか……。