COLING 2012 本会議2日目: 連携するには距離感も重要

朝、微妙な時間に起きたせいか、朝ご飯のとき誰も知り合いがおらず、不安感が漂う。出かける用意をしてロビーに降りると、知り合いが増えていたが、これから朝ご飯を食べるところのようで (つまり招待講演はスルーするということか……)、出かけそうだった黒橋先生たちの autorickshaw に同乗させてもらう。

今回松本先生をはじめ、日本からはシニアな人がほとんど来ていない、というお話をお伺いし、確かにそうかも、と思ったりする。主力は助教ポスドクくらいの人で、あと同じくらい学生、そして准教授と教授クラスの人は合わせても片手〜両手で数えるくらいかもしれず。日本以外からは教授クラスの人もたくさんいらしているのだが……。日本から国際会議に行くとき、ほとんどの場合面倒くさいビザの申請はしなくてよいのだが、今回はビザの申請からして面倒だったので、そういうのを敬遠して、というのはあるかもしれない。(他の国の人もビザが必要なのは同じかもしれないけど……)

そういえば昨日 Suma と会って (彼女とは7月にも韓国で会ったので、今年は2回目だが、インドは地元のようだ)、論文一覧を見ていたら松本先生の名前を見たからあなたも来るかなと思っていた、と言われたのを思い出した。自分はというと、彼女の名前は採択された論文一覧になかったので、会えると思っていなかったが、こうやって国際会議に来る度に話す人がいるというのはよいことだと思った (彼女はワークショップのほうで話すそうだ)。

あと、今回日本からは発表なしで聞きに来ている人もけっこういるようで、文字通り情報収集をされているようだ。なかなか論文を書く時間が取れず、発表する論文がないのに聞きに行くのは心苦しいと思っていたそうだが、上司が「そんなことを言って外に出ないのはよくない、勉強してきなさい」と勧めてくれた、という話を聞いたりして、どこも助教は大変なんだなと思ったりする。最近は筆頭著者で論文を書く時間がないことを嘆いていたが、共著でも発表する論文があるというのは、優秀な学生に囲まれているということで、恵まれているのだなと思った。自分も最近は自分が聞きたい発表を聞きに行くというよりは、この発表はあの学生の研究に関連するから聞いておこうとか、そういう基準で選ぶことのほうが多いし……。

会場に着いて招待講演は長尾真先生の電子書籍電子図書館に関するお話。実は先月 NL 研で日本語版を聞いていたので、確かにこれはゆっくり朝ご飯を食べるのが正解かもしれない。

午前のセッションは

  • Julia Hancke, Sowmya Vajjala and Detmar Meurers. Readability Classification for German using Lexical, Syntactic, and Morphological Features. COLING 2012.

を聞いたが、リーダビリティ (読解の難易度) の研究の論文を読んだり話を聞いたりしていていつも感じる違和感は、言語教育畑の人は説明力 (どのような要因がどれくらいリーダビリティの推定に関係しているのか) を求めるのに対し、言語処理畑の人は予測力 (与えられたテキストからどれだけ正確に難易度を推定できるか) を求めるので、なんだか両者の間には深い溝があるように思うのである。

たとえばリーダビリティの推定をするのに、学校で使われている学年別の教科書のテキストを用いて、正しく学年が推定できる精度を測る、というような研究がときどきあるのだが、リーダビリティとはなにか、という議論を飛ばしてこのタスクだけを解くと、言語処理的には素性やモデルを変えて予測精度を云々することで研究の形になるのかもしれないが、そもそも言語教育的にはテキストはなんらかの基準で学年別に作られているのであって、その基準を無視して別の手がかりで難易度のようなものを推定しても、意味がないんじゃないか、と思う。(自分自身は言語処理畑なので、間違った認識かもしれないが。) 最近でこそ言語処理でもベースラインの手法と提案手法の精度の差が統計的に有意かどうかを実験結果に含めることが増えてきたが、それでも一つ一つの素性に有意差があるかどうかなんて、ほとんど調べないしなぁ。どちらがよいか、というものではなく、立場の違いによるものだと思うが……。AntiBayesian さんが書かれた統計学の使い方の記事を読んでも、似たような文化の差を感じる。(妻と統計の話をしていて、どうも話が噛み合ないなぁ、と思っていろいろ重回帰分析だとかについて調べてみたら、使われ方が言語処理とかなり違ったのを思い出した)

午前中のセッションでは、

  • Joel Tetreault, Daniel Blanchard, Aoife Cahill, Beata Beigman-Klebanov and Martin Chodorow. Native Tongues, Lost and Found: Resources and Empirical Evaluations in Native Language Identification. COLING 2012.

がいちばん共感した。英作文の母語推定というのは、ある文章を書いた人の母語が何語か、というのを当てるタスク。母語が分かれば誤り方の違いを反映した作文支援ができたりするのである (もっとも、アプリケーションとしては自分の母語くらいは自分で申告させればいいので、それよりは、ウェブからかき集めて来た文書から質の高い言語モデル・翻訳モデルを作るだとか、そういう用途のほうが現実的だと思うけど)。母語推定のタスクでは、これまでの先行研究では ICLE という英語学習者コーパスが使われていたのだが、学習者コーパスにありがちな問題として、あるトピックに関する課題作文をさせることで収集したコーパスであることが多く、この ICLE コーパスでも、特定の言語を母語とする人の作文は特定のトピックで書かれていたりして、本当に母語の影響を捉えた母語推定ができるようなデータセットになっていなくて、トピック分類のようなタスクになってしまっている、という問題があった。

そこで、彼らは ETS で収集した TOEFL の作文データ (ご存知の人も多いと思うが、ETS というのは TOEFL/TOEIC を運営している組織である) から、トピックと学習者の母語のパランスが取れた (それぞれ同じ分量だけからなる) データセットを作成し、ICLE と比較した、というのがこの研究。ICLE で学習した母語推定モデルは TOEFL データセットでは推定性能が低く、頑健でないが、TOEFL データセットで学習した母語推定モデルは、ICLE でテストしてもそこそこの性能で、頑健であることが分かった。詳しくは実験で学習した素性を見ないと分からないが、恐らく ICLE では (できるだけトピックや母語別の作文数に偏りがないようにクリーニングしたそうだが) バランスが取れていないので、母語による違いを学習できたというよりは、データセットの偏りを学習してしまっていた、ということであろう。(この点、昨日書いたように、分野適応したりして適応先のコーパスに学習したモデルを合わせたりするのが一案)

このデータ自体は LDC から来年公開予定だそうで、学習者の母語は11言語、それぞれの言語で1,000作文の合計11,000作文が含まれ、母語の他にも学習者の言語能力 (初級、中級、上級くらいの区別) がついているとのこと。ディスカッションでも、コーパスの偏りによる問題や、データの分量の問題、言語能力による誤り方・直し方の違いといった、まさに我々も直面している課題を挙げていて、やはり世界中の研究者が協力して研究するのはよいことだなと思った。

来年の NAACL 2013 (ボルチモア) でも Workshop on Innovative Use of NLP for Building Educational Applications (BEA) というワークショップが開催される予定だそうで、今年は NAIST からも我々のチームが英語学習者の前置詞と限定詞の誤り訂正タスクに参戦して [twitter:@keiskS] くんと松本先生が発表してきたのだが、来年の BEA の shared task は native language identification タスクで申請しているところだそうだ。この発表とは別に母語識別タスクは取り組みたいと考えていたので、やりたい人がいたらまた参加してもいいんじゃないかな。

午後は

  • Chi-Hsin Yu and Hsin-Hsi Chen. Detecting Word Ordering Errors in Chinese Sentences for Learning Chinese as a Foreign Language. COLING 2012.

を聞いてみる。これは中国語学習者の誤り検出タスクだが、日本語学習者、英語学習者と来たら次は中国語学習者支援だろうと我々も考えていたので、なにか知見が得られるかと思って聞いてみたら、中国語学習者の誤りの中で一番多い (約3割) 誤りは語順に関する誤りだ、というのが意外で興味深かった。ただ、作ったデータセットが微妙だし、解いている手法もなぜ誤り個所の検出ではなく文単位での検出 (語順誤りが含まれる文か含まれない文かの2値分類) なのか謎だし、もっと他にやり方はあるのではないかと思った。質疑応答で一致率を聞いたところ、詳しくは調べていないが文単位では8割が一致するということで、人間に取ってはけっこう簡単なタスクなのかもしれない (彼らは文法誤りだけを対象にしているわけではなく、意味的な誤りも誤りだとする立場のようで、文脈によって誤りであるかどうかが揺れる場合があり、それが一致しない2割である、という話だった)。

その次は [twitter:@hjtakamura] さんによる

  • Hiroaki Kawasaki, Ryohei Sasano, Hiroya Takamura and Manabu Okumura. Generating ``A for Alpha'' When There Are Thousands of Characters. COLING 2012.

を聞く。電話口で「名前は守です。守備の守です」のように、読みに曖昧性のある単語の曖昧性を解消するフレーズを生成するという話。手法は単純だが、新しいタスクでおもしろかった。入力メソッドにも使えるだろう、とおっしゃっていたが、確かにこういう手法で生成した候補は入力支援に使えるかもしれない。たとえば一発で変換できない単語があったとき、一文字ずつばらして入力することがあるが、そのとき一度で入力できる表現を知っていれば、わざわざたくさん候補を出して選ばなくてよくなる。ただ、具体的には入力のキーストロークからそのような入力パターンを見つけたら、ツールチップを出して「この漢字はこう入力すれば出せますよ」と教えたりするのだろうか。ぶつ切りで入力した単語を自動的に辞書に登録し、次回からは予測入力で出してあげるほうが親切なような気もする (ATOK はそんな機能があったような?)。個人的にはこれも日本語学習者支援に使えたりしないかなぁと思って聞いていたのだが (学習者が知っているような漢字だけで、知らない漢字や単語の説明をする)、どういうシーンで使えそうかな……

休み時間、ふらふらしていたらMarcus Dickinson さんを見かけたので、話しかける。彼のところの学生さん (言語学系の PhD コース) が先週自分にメールをくれて、研究の相談に乗っていたのだが、そのメールの Cc に彼が入っていて、昨日「COLING に行くなら自分も行くからお話しましょう!」とメールをくれていたのであった。そのうち Joel さんもやってきて、いまどんな研究をしているのだとか、コーパスについてだとか話したりした。

Marcus さんはいま イリノイ インディアナ (2012-12-12 修正: コメントでのご指摘ありがとうございました。) 大学ブルーミントン校の所属で、自分も学部時代にここに留学しようと思って資料を取り寄せたことがあったくらいである (まだインターネットがここまで普及していなくて、願書なども郵送で申請しなければならなかったが、ちゃんと自宅に届いた)。巡り巡って言語学に近いところに来たんだなぁと感慨深かった。

夕方のセッションは

  • Huichao Xue and Rebecca Hwa. Modeling ESL Word Choice Similarities By Representing Word Intensions and Extensions. COLING 2012.

が英語教育に関する研究で、英作文における語彙選択タスクに関して、内包と外延を用いることで、学習者のコーパスを使うことなしに、どの単語をどの単語に誤りやすいか (ここでは前置詞誤りタスクなので、どの前置詞をどの前置詞に誤りやすいか) というモデルを構築する、という話。内包と外延という哲学的な用語を用いているが、(論文を読んでいないので誤解しているかもしれないが) 結局内包というのは分布類似度のことで、外延というのは対訳コーパスから計算した翻訳確率を誤り確率に使うということで、結局「学習者のコーパスがなくてもネイティブコーパスだけで計算できる」というのは後者の効果があったからのようだし、後者の効果があったのは評価に使ったコーパスが主に中国語母語話者が書いた英作文に対して中英の対訳コーパスを使っているからのようである。

質疑応答で自分も「他の言語と英語との対訳コーパスを使って、誤り確率に与える影響を見た方がいいのではないか」というコメントをしてみたが、Joel さんも同じく質疑応答で、「前置詞誤り訂正のための confusion set 構築であれば、昔はともかくいまは英語学習者コーパスはたくさん使えるし、Lang-8 のようにウェブサービスからクロールすることもできるので、そもそもこの研究の前提としている、ネイティブコーパスが不要だという利点は意味がないのではないか」というコメントをされていて、全く同感であるし、[twitter:@shirayu] くんも質問していたように、前置詞以外の動詞の語彙選択誤りにこの手法が適用できるかどうかのほうが遥かに興味がある。というのも、前置詞はそもそも種類が少ないので少数のデータでもそれなりに誤り確率値が推定できる一方、名詞や動詞のような品詞の語彙選択は候補が膨大なので学習者コーパスでカバーするには分量が大規模に必要で、ネイティブコーパスだけから confusion set が構築できるのであれば、それは嬉しいことだからである。もちろん、対訳コーパスがないと動かないアルゴリズムのようなので、対訳コーパスの質と量に依存する話かもしれないが……。もっと単純に対訳辞書だけあれば動くようにしたほうがいいんじゃないかな。先行研究でも

  • Randy West, Y. Albert Park and Roger Levy. Bilingual Random Walk Models for Automated Grammar Correction of ESL Author-Produced Text. BEA-6 (2011).

があり、これは韓国語と英語の対訳辞書を用いて2部グラフを構築し、誤りモデルを教師なしに学習する手法だが、こういうほうが嬉しいように思う。

バンケットに行くまでけっこう時間があったのでロビー周辺をぶらぶらしていて、たまたま話しかけた人はマカオ大学の学生さん (M2) で、いろいろマカオの大学生活について聞いてみる。もう PACLIC と COLING に論文を通していて、CICLing と NAACL にもそれぞれ投稿したばかりで、論文を書いていたから初日から来られなかった、帰国したらジャーナルも2本書かないといけない、と言っていたが、すごくがんばる人もいるものだ。松本研の学生の人たちも、これくらい活発に投稿してくれればいいのだが……(修士の人はともかく、博士の人は年1回くらいは国際会議に投稿したほうがいいんじゃなかろうか。通るかどうかは別にして。)。

バンケットは Renaissance Hotel というホテルなのだが、autorickshaw の運転手の人たちをいくら捕まえても「そんなところは知らない」と言われて途方に暮れていたら、autorickshaw を降りようとしていた恰幅のよい50歳くらいのビジネスマン風のおじさんが、「どこに行きたいんだ?」と手伝ってくれた。自分たちは4人いたので autorickshaw を2台捕まえてくれて、行き先も現地語で伝えてくれて、面倒くさそうだと思って逃げようとした運転手を止めたりしてくれて、大変ありがたかった。ハイデラバードと比べると、ムンバイは全体的に汚いが、人は親切で、歩いていてもそんなに危険だと思うこともなく (野犬がそこかしこにいるので、それはちょっと怖いが……)、安心ではある。

Renaissance Hotel はさすが5つ星ホテルなだけあって、相当ゴージャスな感じであったが、バンケットは想定通りかなりカオスな感じで、どんどん人が集まって来て、開始の挨拶もなにもなく (そもそも定刻の30分遅れはこの国ではデフォルト、開始時刻を聞いても明確に教えてくれないが、時刻はどうでもいいのだろう)、食事に長蛇の列ができたかと思えば (これは今回の会議では頻出だが……)、かなり離れた場所に第二会場があってそこではゆっくり食事ができたりだとか、謎が多い。今回の COLING のゴタゴタはインドは関係ない、プログラム委員 (長) の問題だ、という話を何回か聞いたが、やっぱり個人的にはこれはインドでの体験として末永く記憶されるのではないかと思った。

たまたま列に並ぶとき (海外の人かと思って) 話しかけたのが阪大の猪口さんで、masayu-a さんや松本先生たちと一緒にしていた研究の続きの発表で来られていたそうで、不勉強で申し訳ない。グラフマイニングをされているということで、データマイニング系の国際会議と自然言語処理系の国際会議の違いについてひとしきり話したり。自然言語処理系の国際会議は初めてだそうだが、今回の COLING は特異値なので、これが自然言語処理のデフォルトだとはあまり思われたくないかも……。自分もときどき言語処理以外の国際会議に出てみると、新しい発見があるのかもしれない。

バンケットのとき ryu-i さんといろいろ話し、いまポスドク助教〜准教授くらいの人たちで、ちゃんと連携・分担して研究をやるのがいいのではないか、という話題 (もちろん、そういった研究だけをする、という意味ではない)。似たようなことをやっているのに独立にやるのはもったいないし、協力したほうがいいという総論では大賛成なのだが、各論でこのテーマを協力しましょうという話になると、時間が全然取れずなかなか進まない、というジレンマ。先日黒橋先生から「『NAIST助教はいちばん天国に近い』と言われているくらい、講義や雑用の負荷がなく、研究費も潤沢にあるし、学生も多いし、小講座制で教員数も多いし、とてもいい環境」と教えていただき、全く同意ではあるのだが、昨今の高等教育を巡る情勢の変化によって、研究費は取らないといけないし、筆頭著者で論文を書かないとダメだと言われる一方で、第二著者として論文を書いて学生も育てなければいけないとも言われ、なんだか以前より負荷が増えているのではないかと思う (2005年以前の大学院の状況を知らないので的外れかもしれないが)。

あと、やっぱり物理的な位置関係というのは大事で、直接会える利点と欠点、会えない利点と欠点がそれぞれあって、日帰り出張できる距離なら一緒にやりやすいが、行くだけで1泊仕事になるとなかなか厳しいものがある。逆に言うと、なんたら委員とかそういう仕事が回ってくることも少ない (松本先生談) そうで、自分の研究に集中することができるので、そういう利点を活用したほうがいいかなと思う。

バンケットのあとはバーに行く人もいたようだが、長丁場で体調不良になるのが怖いので、[twitter:@murawaki] さんと [twitter:@Tzawa] さんと歩いてホテルまで帰る。よく地理関係が分かっていなかったが、@Tzawa さんが道をご存知で、15分ほど。確かにこれなら歩いて帰ったほうが速い。道すがら、@murawaki さんと「松本研はそんなにたくさん学生がいてどのように回しているのか、というかそもそも回っているのか」と聞かれたが、それは good question。学生数、特に修士の学生数が多い一方、博士の学生が修士の学生の面倒を見る、というような階層構造になっているわけでもないので、けっこう教員の負荷が高い。個人的にはこれはこれでよいと思っていて、勝手に仲良く先輩後輩・同期でフランクに研究の相談をしたり、論文の添削をしたり、発表練習に付き合ってあげたり、そういうのが上からやれと言われないでも自分たちでやりたいと思ってやっているのはすばらしいと思うのである (自分も ryu-i さんや nozomi-k さんらには多大にお世話になった)。

最近、学生の人たちからよく「こんなに見てもらって恐縮です」「とても忙しいのにすみません」と言われるのだが (「松本先生が忙しそうだから相談できない」という話も……)、自分は教員の仕事というのは学生の能力をできるだけ伸ばすことだと思うし、むしろこちらこそ他の仕事のために返信が遅くなったり、コメントが少なくなったりするのが申し訳ない感じなので、自分が成長できる環境にいるなら、それを最大限に活用したらよいと思う。そういうことがしたくてもできない環境にいる人のほうが、世の中には多いかもしれないし……。