NLP 2012 本会議初日 (2): 英作文支援の研究も盛り上がりつつある

午後は文章作成・校正支援のセッションの後半。こちらには英作文の作成・校正支援のセッションが集まっていて、座長は甲南大学の永田さんと2人で共同座長を勤めていて、便宜的に前半と後半に分かれていたので、自分はこちらが主担当。内容的には前半を自分が、後半を永田さんが座長するほうがよかったような気がするのだが、前半は自分の共著が何個かあったので、このようにしてもらったのである (結局後半のセッションも、自分が共著に入っている発表は永田さんに変わってもらったので、最初から共同座長として申告してもよかったかなと思った)。

こちらのセッションは大きく分けると英作文支援システムの研究、英作文文法誤り訂正の研究、日英翻訳のための日本語ライティングの研究、そして多言語入力の4つ。それぞれ順に見ていこう。

まず英作文支援システムの研究は以下。

  • 梅澤次郎, 水野淳太, 岡崎直観, 乾健太郎. 冠詞誤り訂正時における訂正根拠の提示.
  • 高松優, 水野淳太, 岡崎直観, 乾健太郎. 英作文支援のための用例検索システムの構築.

いずれも東北大学からの発表で、提出してもらった原稿のクオリティも高い。梅澤さんの発表は、ちょっと設定に疑問が残るものの、やりたいことはなるほどと思うし、今後が期待できそうである。高松さんの発表は、英語で論文を書く人のための用例検索システムを実際に作っているところがすばらしい。やれることはどうも ChaKi.NET のサブセットな気がするのだが、高速に動くというだけでも嬉しい人は多いのではないかと思う (係り受けによる検索とか、品詞による絞り込みとか、正規表現での絞り込みとか、細かい検索をやりたい人はそんなにいないのでは、と……)。こちらも今後の展開が楽しみである。ちなみにPoEC で試すことができる :)

次に英作文文法誤り訂正の研究は以下。

  • 乙武北斗, 吉村賢治, 竹内裕己, 河合敦夫. 事例の自動抽象化に基づくルールを用いた英語冠詞の自動付与手法の提案.
  • 田尻俊宗, 小町守, 松本裕治. 大域的文脈情報を用いた英語時制誤りの検出と訂正.

乙武さんの発表は、人手で冠詞の自動付与を行うルールを作成したというお話。最近松本研でも shuhei-k くんが機械学習を用いた英語の限定詞の自動付与手法を実装しているのだが、質疑応答で東大の松崎さんが「このルールを機械学習の素性に入れたらどうなんですか」とツッコミを入れていたのは自分も同じことを感じ、実際機械学習の素性に入れた方が、人手でルールにマッチさせるより10-20ポイントよいらしい。まあ、それなら最初から機械学習するかな……。

[twitter:@pavlocat] くんの発表は、1作文中に複数の動詞がある場合、時制誤りの検出と訂正をそれぞれ独立に解くのではなく、前後のつながりを見て最適な候補を選ぶとよい、という報告。SVMによる点推定をベースラインとし、CRFによる系列予測では適合率・再現率ともにだいぶ改善するのであった。学習曲線を見るとどうかとか、そもそも人手でどれくらい判断が一致するのか (これは質疑でも聞かれたが、一応 Lang-8 のデータに関しては2人のアノテータで一致率を見ている) とか、いろいろと調べるべきことはあるのだが、一応アイデアとしてはクリアにポイントを示せているかなと思う。あとで発表を聞いていた方から「田尻さんの発表とてもよかったです。スライドも分かりやすいし、結果もいいですね」と言ってもらったり、自分はときどき進捗を聞いて相談に乗っていただけだが、そう言っていただけるのは嬉しいことである。

そして日英翻訳のための日本語ライティングの研究は以下。

  • 宮田玲, 影浦峡, Hartley, Anthony. 日英機械翻訳の改善に向けた日本語前編集規則の構築と評価.
  • 井佐原均, 立見みどり, 影浦峡, Tony Hartley. 企業の多言語情報発信を支援する取り組み―国際化をにらんだ産業文書の効率的作成へ向けて.

宮田さんの発表は、翻訳エンジンにかける前に表現の正規化をする前編集規則をいくつか作って評価してみました、という話。こうするとカバー率が上がって (BLEU で上がるかどうかは分からないが) 翻訳性能は向上するのだろうが、結局翻訳エンジン依存で使い回しができないルールの山ができてしまう危険性があるし、どこまで書けばどうよくなるのか分からないのが課題だなぁ。また、立見さんの発表は、グローバル企業で企業内文書の翻訳を考えると、文書中の表記の揺れはできるだけ少なくしたほうがいいのだが、あまりにガイドラインが複雑だと従ってもらえないし、外に出さない企業内文書だとそもそもなかなか文書作成ガイドラインを守ってもらえない、という話。質疑応答も含めて、なんだか翻訳の話というよりは、企業内文書がいかに Excel で書かれているか、後処理しにくい形で Excel に残されているか、というような話ばかりだったような……。(いや、その気持ちは非常によく分かるし、実際大問題なのだけど)

最後は多言語入力の話。

  • 鈴木久美, Pallavi Choudhury, Chris Quirk, Chris Wendt, Colin Yu, Abdulaziz Mohammed. 入力支援機能を統合した多言語入力システム「Universal Text Input」.

この Universal Text Input は去年タイであった入力メソッドに関する国際会議でもデモを見せて説明してもらったが、UIME でやりたいことは自分がやりたいこととかなり近い。入力ログから変換傾向を知るとか……。ちなみに Hisami さんのこの年次大会の論文はけっこうおもしろいので興味ある方は見ていただけると楽しめるかも (笑) やはり言語ラブな人の書く論文は違うなと思うのである。(手法に関する説明はあっさりだが、言語に関する話題になるといろいろ難しい事例が出てきておもしろい)

これらのセッションが終わったあと、ライトニングトーク (LT) と題して1人持ち時間5分で話してもらった。結局事前の告知がうまく通っていなかったようで (一応学会から流した開催案内には入れてもらったのだが、それ以外ではこの日記と Twitter くらいでしか告知していなかったので、反省……)、合計3人の発表。

トップバッターは [twitter:@nokuno] さんで、翻字 (transliteration) についての紹介と、今年の COLING 2012 という国際会議でテキスト入力に関するワークショップの第2回目をやるので、どうぞご参加くださいという宣伝。そういえば、今年はちょっと私生活に忙しそうなので、オーガナイザは辞退させてもらったのを忘れていたが、COLING 自体には何人か共著で投稿するだろうし、オーガナイザでないなら誰か投稿したい人がいたら投稿してもらってもいいかもな〜(あるいはなにか一発ネタを仕込んでみるとか (笑)) COLING も論文投稿〆切が8月7日と書いてあるので、ワークショップの論文投稿〆切は9月だろうし、そのころにはちょっと余裕はあるかな。

2番手は甲南大学の永田さん。少なくとも1件 LT があることは確定していたので、募集しておいて0件という事態はないことが分かっていた (笑) ここで初めてのアナウンスとなるが、9月の NLP 若手の会シンポジウムに連動して、英作文の誤り検出・訂正ワークショップ 2012 というのを開催準備中である。ポイントはいくつかあるのだが、自分がポイントだと思っているのは

  • (まだ持っていない人にとっては) 参加者には Konan-JIEM Learner Corpus が無償で配布される (参考: 個人・非会員価格 42,000円)
  • 全参加者はシステムのソースコードを MIT ライセンスで公開する
  • 1位と2位のシステム、そして全体を通じて今後の発展が見込まれる研究を表彰する (賞金も出る)

というところだろうか。今回は誤り訂正ではなく誤り検出、そしていろいろある誤りのうち特に前置詞誤りと主語動詞の一致の誤りの2つに焦点を当てているのだが、ここに落ち着いたのもオーガナイザで議論を重ねてこうなり、関根さんが「共通タスクは好きじゃないけど実施することでデータや知見が溜まるのはよいと思う」とおっしゃっていたり、[twitter:@ARAMAKI] さんが「共通タスクは1回目が一番大事です、2回目以降は1回目を見てやるので、単に参加するだけの人が出てくるし、1回目がいちばん楽しいので、タスクを設定するときの楽しさをみんなと共有してほしい」と激励してくださったり、学ぶことが多々ある (大変なこともあるが……)。

去年も NLP 若手の会シンポジウムをホストして思ったが、こういうののオーガナイザは (やっていることを外から見るとすごく少ないように見えるのだが) けっこう気にしないといけないことがたくさんあって、かなりしんどい。こういう役回り、お世辞にも自分は得意であるとも好きであるとも言えないのだが、自分が引き受けることによって喜んでくれる人がいるといいな、と思って、少なくとも1回はやってみることにしているのである。

今回の言語処理学会年次大会は、ホストしてくださってい広島市立大学の方々 (特にアルバイトの学生さんたち!) が献身的におもてなししてくださり、自分としては本当に感激するとともに、ここまで気持ちよく参加できるように動くというのは、後ろで支えてらっしゃる方々は筆舌に尽くし難い努力をされているのだろうと思う。普通のサービスを提供しようと思うだけで相当忙しく大変なのに、気持ちいいサービスを提供するためにはどこまで気を配らないといけないのかと思うと、本当に頭が下がる思いである。会う度に学生さんたちには直接感謝の言葉を伝えていたが、この件は繰り返しすぎてもし足りないことはないくらいである。ありがたいことである。

さて、ライトニングトークの3番手は [twitter:@tomo_wb] くん。日本語学習者の作文支援に関する問題提起で、どうやったらいいかという解決策を提示するものではないが、直後の総合討論に関するとてもいいイントロに。

総合討論では、最初永田さんと自分が問題提起。永田さんの問題提起としては、こういう作文・校正支援では、書く人の学習を支援するのが目的とするか、それとも効率的に書くこと自体を目的とするかで方針が異なり、アプリケーション作成だけではなく、研究においてもこの区別を意識したほうがよいのでは、というもの。自分は日本語学習者の作文・校正に支援に関して、形態素解析係り受け解析のような基盤技術がまだ整っていないので、古くて枯れた技術だと思われる要素技術でもちゃんとタスクに合わせて研究し直すことが重要だという点と、あといま hiromi-o さんと chitose-s さん (両方現役日本語教師) との3人で NAIST 誤用コーパスアノテーション作業をしている (毎週1回ミーティングして、タグづけの擦り合わせ) のだが、何を誤りとするべきか、どのようにどこまで直せばいいか、というような話が (収束しつつあるが) 毎回出てくる。書く人・直す人それぞれに個性があり、揺れなくタグづけできるようにするためにはかなりタグづけ方法から考えなければ難しい、という点の2点を指摘。

そして、そのあと、会場からいろんな方々がそれぞれ活発にコメントをくださる。たくさんコメントがあったので細かく思い出せないのが残念だが (これを書いている現在、すでにセッションから5日過ぎてしまった。忙しくて全く書く時間がなかったのだが……)、影浦さんが「誤りを指摘されるだけで直せる人と、指摘されても直せない人がいる。また、直し方を指摘できる誤りと、訂正の方法は指摘できないがとにかく誤っていることは分かるという誤りもある。作文する人の習熟度と、誤りとの双方に、それぞれ何段階かレベルがあるのではないか」というご指摘をされていたのが印象深く、ここ数ヶ月自分が関わっている日本語学習者の誤りタグづけのお話にも通じるところがあり、大変参考になる。(あとで別の人からも、全体討論でいろんな意見が聞けたのがとてもよかった、と教えてもらった) 終了時間を間違えていて、少し延長してしまったが、もう少し時間が取れたらよかったな……。

夜は [twitter:@torotoki] さんと [twitter:@overlast] さん、[twitter:@unnonouno] さんとの4人でお好み焼きを食べる。この時間、本来は NLP 若手の会の懇親会があったのだが、@torotoki さんが中学3年生だということで懇親会に参加を認めるか、ということで議論を重ね、さすがに居酒屋だと……ということで、小さなグループでノンアルコールにてお食事をすることになったのである。(最近自分はめっきりアルコールに弱くなったので、飲まなくても全然問題ないのだけど)

お好み村だとか、以前お好み焼きを食べに [twitter:@presri] さんに連れて行ってもらったところとかを思い出して歩いていたところ、お好み村を発見。しかしここは通り過ぎただけでこの中のどの店がいいのか分からず、@overlast さんが直感で選んだ水軍というお店がけっこうよかった。

@torotoki さんと質問応答システムについてお話したりなんだり。まだいろんなことができる年齢なので、あまり予断を与えないようにしたい (難しいテーマでも難しいと言わないでいたい) のだけど、それも難しいものである。自然言語処理に興味を持ってもらえたのは嬉しいことだが、自然言語処理は数ある研究テーマの中の一つであり、これを一生するのがベストであるとは思えないし、いま興味を持って取り組んでもらえることがあるなら趣味 (部活) 程度にやってもらえるとよいし、取り組んだことで得られた経験なり知り合いなりが今後役に立てばいいかなと思う。

8時過ぎに解散し、@torotoki さんをホテルに送り届けて若手の会懇親会に合流。[twitter:@Iroha_dear] さんと [twitter:@pawjun] さんに歓迎していただく。ほとんどラストオーダーが終わっている時間なので、なにもないかと思いきや、自分の分のお刺身とかなんだとか、取っておいていただいて、なにやら胸が熱くなる……(その後 [twitter:@ayayan1028] さんからも生牡蠣一式取っておいていただいて、感謝!)。@Iroha_dear さん、本当におもしろい……

しかし飲んだり食べたりしている暇もなく、お開きに。着いた早々だが、なんだかもう時間なので締めてほしいと言われる。こういうのきれいにできた試しがないのだけど……と思ってやってみたら、案の定声が通らないとの大合唱。申し訳ない。なんとか最後にがんばって顔を出しただけで勘弁してほしい。@overlast さんなんか、朝の夜行バスで着いたのに、@torotoki さんを送ったりなんだりと、滞在中の大きな荷物を持って30分以上歩いていたので……。人が多いところは常に苦手である (だからこそ奈良の過疎っぷりが自分にはちょうどよいのである)。

2次会は関根の会と合流。[twitter:@hitoyogusa] さんと [twitter:@klmquasi] さんと話したりしつつ、[twitter:@sleepy_yoshi] さんや [twitter:@hitoshi_ni] さんと絡みつつ、会場へ。こちらも人の山、山、山。たくさんの人とお話したような、なにを話したのかほとんど覚えていない (※お酒はほとんど飲んでいないが疲れ切っていて……) が、[twitter:@kashi_pong] さんと大学でのお話だとかなんだとか、割合いろいろお話した。あと、Hisami さんが Patrick Pantel さんを連れて来てくれたので、近況報告をしたりなど。久しぶりだな〜、というか、アメリカで会った回数より日本で会った回数のほうが多いかもしれない、というのは不思議な感じ……。

24時を回るかというころ、3次会のお誘いがあったのだが、ちょっと妻に電話したかったので後ろ髪引かれつつ帰る。電話しながら帰ってホテルに戻ったが、電話しながら意識を失ったりしてしまう (昨日もそうだったが……)。相当やばい。