NLP 2012 本会議初日 (1): 日本語作文・校正支援の研究が盛りだくさん

本会議初日。朝、時間が間に合うかどうか分からなかったので、とりあえずバスに乗ってみる。どうも現金払いと IC カード払いとで、1割以上運賃が違うようなので、窓口で PASPY (ぱすぴー) という IC カードを購入。ICOCA があればよかったのだが、あいにく自分は SuicaPiTaPa の2枚持ちなので、ICOCA がなくて使えなかった (以前 Smart ICOCA を持っていたのだが、Smart ICOCA が別カードになっていて使い勝手が悪かったので解約したのだ)。整理券を取らなくてもよくなって (小銭を用意する必要がなくなって) 大変快適。

午前中は文章作成・校正支援のテーマセッションの1回目。60名を超える人たちが集まって、すごいなと思う。前半は主に日本語を対象にした文章作成・校正支援で、日本語学習者の作文支援の研究、オフショア開発に関する校正支援の研究、そして日本の大学生のアカデミックライティング支援のための研究、そしてウェブテキスト処理の4通り。けっこう多彩なトピックが集まっておもしろかった。

NTT の永田さん、そして甲南大の永田さんもよく言っているが、特に文章作成支援に関する研究では、書く人が学習することを目的としているか、あるいは書くこと自体を目的としているか、で方針が違い、前者の場合は必ずしも学習者に答えを教える必要はない (もっと言うと、教えないほうが学習効果が高い) ので、訂正より検出のほうが大事なのだそうだ (逆に、たとえば語学教師支援や翻訳者支援では、校正する人が学ぶ必要はないので、検出より訂正のほうが重要だろう)。

日本語学習者の支援に関する発表は以下の3件。

  • 笠原誠司, 藤野拓也, 小町守, 永田昌明, 松本裕治. 日本語学習者の誤り傾向を反映した格助詞訂正.
  • 今村賢治, 齋藤邦子, 貞光九月, 西川仁. 識別的系列変換を用いた日本語助詞誤りの訂正.
  • 藤野拓也, 水本智也, 小町守, 永田昌明, 松本裕治. 日本語学習者の作文の誤り訂正に向けた単語分割.

自分の共著の論文は手前味噌になるが、seiji-k くんの話は、格助詞にも間違えやすい格助詞と間違えにくい格助詞がある (たとえば「が」と「を」は混同して使いやすいが、「から」と「に」は混同しにくい、など) ので、これらの違いを誤り訂正タスクに反映したら性能がよくなった、という話。現在の使い方では誤り訂正しかできない (挿入誤りは難しいが、削除誤りは置換誤りと同様に扱うことができ、検出に拡張するのは容易だと考えられるが) ということと、係り受けなど使ったらうまく行きそうな素性を使えていない (というかそもそも識別学習ではないので、任意の素性を入れることができない) ところが課題かなぁ。

[twitter:@tkyf_y] くんの話は、日本語の誤り検出・訂正を含むいろいろな処理には単語分割が必要となることが多いが、日本語学習者の書く作文は一般的な形態素解析器でうまく解析することができないので、自動で作成した大規模学習者コーパスから単語分割器を作成する、という話。こちらは実は mixed result で、誤り個所はよく解析できるようになるものの、誤りを含まない箇所で精度が低下するので、できるだけ誤り個所以外での精度低下を防ぎつつ、誤りを含む箇所を正しく分割できるようにすることが課題。

あと今村さんの研究は格助詞誤り訂正の問題を系列ラベリングの問題として解いたという話。格助詞誤りのようにクラス数 (可能な訂正先・訂正もとの組み合わせ数) が少ない問題だと、確かに形態素解析のようなグラフ (ラティス) を作って探索する問題にするのが一番素直な気はする (最大エントロピー法あるいは SVM でいろんなリッチな素性を使って点推定する方がスタンダードかもしれないが)。ただ、今村さんは最終的には任意の誤りを対象にしたいということで、機械翻訳のようなアプローチでやりたいということである (文法誤り訂正は、たぶん大規模な並べ替えが起きない機械翻訳とほぼ同じタスク)。なるほどね〜

オフショア開発に関する発表は以下の2件。

  • 末永高志, 松嶋敏泰. ベイズ決定理論にもとづく階層Nグラムを用いた最適予測法と日本語入力支援技術への応用.
  • 鄭育昌, 長瀬友樹. 外国語母語話者が作成する日本語技術文書を対象とした訂正履歴の分析.

末永さんの発表は、やりたいことは分かるしよさそうな話に見えるのだが、スライドに手法の詳細がなくてなにをしているのか分からなかったので、あとで論文を読まないと……。昨年 [twitter:@unnonouno] さんも予測入力を用いて日本語入力を支援するという発表をされていたが、お仕事だと分野を限定してこういう作り込みをするというのは現実的な解なのだろうと思う。(一般ユーザには、できるだけモードレスに、使っていることを意識しないようにできたらいいなと思うのだが……)

[twitter:@yuchang] の発表は、中国人が書いた仕様書やマニュアルに起きる日本語の誤りを分析した、という話で、なるほどなぁ、と思うことしばしば (NAIST でも中国人の学生が書いた作文の誤用のアノテーションをしているので)。実はいま日本語を第二言語とする人たちの需要が高まっているのは、こういう企業内でいろいろな作業を中国などに外注しているところ (日本の大企業はけっこうやっている) で、かなり大きな問題なのである。(下世話な話だが、日本語作文支援はお金になる話でもある、ということである)

「情熱プログラマー

情熱プログラマー ソフトウェア開発者の幸せな生き方

情熱プログラマー ソフトウェア開発者の幸せな生き方

は海外にどんどん仕事が行ってしまう現実を描いた良書だが (自分が読んだときの「My Job Went to India」というタイトルのほうが自分は好きだったのだが、さすがに日本人にはピンと来ないか)、日本語の分かる中国人が書いた日本向けソフトウェアが、日本人の書く日本向けソフトウェアよりたくさん存在するようになるというのも、別にそんなに突拍子もないことではなく、普通にすぐ近くにありうる未来なんじゃないかなぁ。(だからこそ、いまのうちに日本人が英語と中国語をできるようになって、主要なところに食い込んでおいたほうがよいと思うのだけど)

アカデミックライティング支援に関する発表は以下の2件。

  • 飯田龍, 徳永健伸. 照応・共参照解析に基づく文章の首尾一貫性の指標. (論文スライド あり)
  • 大塚裕子, 沼田寛, 椿本弥生, 不破崇行. 解説文作成課題における文章技術と評価の分析

ryu-i さんの話は去年 NAIST に1ヶ月いらしていたときに聞いた話であるが、文章の首尾一貫性を示すのに、自動で付与した照応解析や共参照解析の結果が使えないか、というアイデアである。書き手がちゃんと書いていたら結束性が高くなるように書く、つまり話があっちこっちに行ったりせず、同じものが繰り返し出てくるところは近くに固めて書いたりするので、自動解析でもそれらは正しく当てられると予想できるが、ちゃんと書いていなかったら話が飛ぶので解析もうまくいかないだろう、ということ。談話解析も、現在の精度でもアプリケーションによっては使える、ということを地道に示していくとよいと思うし、実際大学生の論文作成支援に向けて動いているようだし、今後が期待だな〜。

大塚さんの話も大学でアカデミックライティングを指導するときの様々な問題について議論してくださったが、議論がいろいろあり、20分だと時間が足りなかったな。午後のセッションのあとの全体討議がかなり盛り上がったのだが、午前のセッションにも20分でいいので討議を入れられたらよかったかなと反省。ポスターセッションだと参加者とディスカッションしやすいのだが、口頭発表だとなかなかインタラクションがないので、ちょっと申し訳ない。

ウェブテキスト解析の発表は以下の2件。

  • 李陽, 何径舟, 黄箏, 呉闖, 陳暁. N-gramとN-posのアンサンブルによるクラウド仮名漢字変換.
  • 笠原要, 永田昌明. 伏字を含むテキストの分ち書き処理.

李さんの発表はバイドゥで作っている日本語入力システムの話で、自分は共同座長としてタイムキーパーしていたのだが、3分で終わって「え…」と何が起こったのか一瞬分からなかったのだが (一応全体で20分、発表は15分、残りは質疑で作ってきてもらえるようお願いが行っているはず)、なにか手違いあるいは勘違いがあったのであろう。[twitter:@nokuno] さんはじめ、何人か質問してくれる人がいて、無事時間通りになったので一安心。

笠原さんの発表は、頑健な単語分割器を作りたいという意味では @tkyf_7 くんの話と方向性は同じだが、ウェブテキストに対する単語分割器を作るというところが違う。その中でも特に伏せ字の含まれるテキストを対象としたところが独自で、atsush-id くんが以前やっていた研究を思い出す。しかし atsush-id くんは、学校の裏サイトで「うざい」をわざと「う財」と書いたりするような、読みが同じ伏せ字を対象にしていたが、○で省略された伏せ字だけを対象にするのは、さすがに数が少ないのでは、と思ったり…… 。

昼は長蛇の列の学食に並び、甲南大の永田さんと教育測定研究所のミッコさんとランチミーティング (昨日できなかったぶんを今日やった)。さすがに毎日ここまで長蛇の列だとちょっとどうかと思うが、今回は700人以上参加者がいるようなので、事前の見積もりを外してしまったんだろうな〜。(NAIST でも700人どころか300人も来たら学食崩壊すると思うし、小さな大学の痛いところかもしれない。でも、広島市立大のすごいところは、2日目以降は全然並ばなくてよくなったところ!)

ランチミーティング後、[twitter:@tsuchm] さんと LREC のお話をしたり。今年は5-7月もあちこち行くことになりそうなので、LREC は行かないことにしたのだが、イスタンブールはいつか行ってみたいなぁ。