1963年の仮名漢字変換

新納さんのところ経由で京都大学坂井研究室；人工知能との出会いとか。長尾研以前の話。おもしろい。

私は、大学院に来た当初、文字認識をやりたかったのだが、金出さんの助言を受け、言語っぽい事を杉田さんに師事して始めていた。長尾さんも方針変更した私を、陰に陽に支援してくださり、論文を下さったり、その頃、辞書会社が作りつつあった電子辞書を使った研究をやらないかと誘ってくださったりしたものだった。三省堂の辞書だったのだが、これを使って文章を解析し、日本語の文法の自動抽出をやるというのが、長尾さんの目論見だった。私は乗り気であったのだが、一人の助教授に院生が２人付くのはまずいということで坂井先生のお許しが出ず、ぽしゃってしまった。この１９７２年の春、坂井研は新設の情報工学教室に移り、長尾さんは電気に有線通信工学講座担当（中身は情報工学）の助教授として残り、杉田さんが助教授として情報に移っていた。

金出さんというのはあの CMU の金出教授( NAIST 客員教授兼任 )のことである。助教授に院生が2人つくのはまずいのか……。

仮名漢字変換の歴史は1963年にまで遡る(上記リンクには論文のキャプチャー画像まである)そうだが、自立語と付属語に分けて解析するのはこのあたりから始まっているのかな? たぶんデータが大量にあれば区別しないでもよくなるのではないかと思っているので、あまりここ区別したくないんだけど……。データが大量にあるときの話は今日の tabatee さんのたとえ話が分かりやすかった。先日国際会議で発表したとき、会場から「Lucy がある言語でなにが機能語でなにが内容語なのか事前に決めるのは難しいという研究をしていたので、それを参考にしたら」というコメントをもらった(その後ろで Lucy 本人が聞いていた)のだが、このあたりはけっこうデータ依存な気がする(というと言語学の人に怒られるかもしれないけど)。

上記のページに戻ると

京大坂井研の場合、１９６０年代中期には既に自動翻訳を終えているほどに、早いペースであった。私が７１年に大学院に居たころ、長尾先生は、米国のスタンフォード大学の論文を研究室に持ってこられた。それは分厚い濃い緑色の表紙をもった「言語理解」の論文だった。仮名漢字変換なんて眼中になかったのだ。遥か昔に終わった研究。それが京都大学での認識だった。言語理解とは、言語の表層的な字面の研究ではなく、コンピュータをロボットとに仕立てて、そのロボットと意味のある会話をする技術である。

と、なんか古き良き時代の大学、という感じである。機械翻訳はそれから50年経ってもまだあーだこーだやっているわけだが、もうそんなのは遙か昔に終わっている、とは……

仮名漢字変換というのは、すでに九州大学でもＮＨＫでも研究は終わっていた。勿論、研究が終わっていたと言うことと、研究が完成しているということとは全然別の話である。大学は基礎研究を終わると、ペーパ（論文）を書いて終了し、次のテーマに移っていく。後継者は、そのぺーパを読んで、何をどこまでやればどこまでは可能かなどの目処がつくのである。勿論、研究をそこで止めないで続行しても良いのであるが、工学の研究を大学で徹底的に行うのはかなり難しい。たとえば、仮名漢字変換では、今では、１０万語、２０万語という辞書を用いているが、仮名漢字変換が実現していない時点で、どのようにしてこのような辞書を作ることができるのであろうか。

(中略)

京都大学ではすでに１９６０年代に、坂井、長尾、杉田さんらが文学部と共同で機械翻訳の研究を終えていた。もう絶版になっているかもしれないが、この時の成果が、講談社のブルーバックスから「翻訳するコンピュータ」1969.9.20として一般向けにも本がでている。仮名漢字変換は、ＮＨＫも終了していた。大学の頭がまだぬけていない入社２年目の私には、そんな状況の中で、どうして今、仮名漢字変換か分からなかった。しかし、上に書いたように、相変わらず辞書を作る為の漢字入力すらまともにできない時代であったのである。なによりも漢字をどのようにして入力するのか、それを本当に実現しなければ何事も始まらないのである。

こんな感じでブルーバックスで本が出ていたことにも驚くが、いま自然言語処理では研究レベルで「終わった」ことになっているものもいっぱいあると思うのだけど、そんなふうに新書とかブルーバックスでもっと出すべきだと思うんだけどな。今の時代、サンプルプログラムつきで出せたりもするんだろうし……。まあ、この時代本が適当なメディアかどうかは分からないが、狭いところに閉じこもっていても外から見えないし、「失われたテクノロジー」になる前にまとめておいたほうがいいような……

長いのであとは仮名漢字変換や人工知能に興味のある人はご自分でご覧になってくださいまし ;-)