COLING 2012 本会議1日目: 同じ問題に取り組んでいて話が通じるとうれしい

長旅の疲れを癒すため (ホテルで無線が有料だったせいでもあるが)、昨日は早く寝たのだが、朝の6時半に外から聞こえる謎の詠唱で起きる。10分くらい続いていたが、なんだったのだろうか……。6時半でもまだ外は真っ暗なのだが、日の出とともにやる儀式でもあるのだろうか。

[twitter:@keiskS]くんと合流して朝ご飯を食べる。彼の論文は reserve paper といって、発表できるかどうか直前まで分からず、発表者が来ない no show のときに繰り上げで発表可能になるそうなのだが、可能性としては初日から繰り上げになる可能性があるので、徹夜でスライドを直していたそうだ。自分だったら頼まれるにしても前日までには連絡があるだろうから、とサボりそうだが、すごい……。

ホテルから会場までは直線距離にすると3kmくらいで、湖を横断する道を通ると歩いて行けるように見えるのだが、実際はその道は通行禁止だそうで、車で行くにしても湖を大回りすることになるそうである。学会が提携するホテルに泊まっている人は無料バスをチャーターしてくれているそうだが、大回りして行くので1時間以上かかるだとかいうことで、ryu-i さんたちとタクシーに同乗させてもらう。

会場で登録を済ませたが、名前がなぜかファーストネームでソートされていたり (普通は名字でソートする)、窓口が何個もあるのになぜか1カ所しか開いておらず、しかもやたらと手際が悪かったり、やはりこれはプログラム委員長がどうというより、なんかいろんな要因が重なっているような気がする。

インドやタイのような場所で開催される会議に毎回出してくる Marius Pasca の論文

  • Marius Pasca. Attribute Extraction from Conjectural Queries. COLING 2012.

は、自然文による検索、たとえば「ムンバイは暑い?」という検索クエリから、「ムンバイ」というインスタンスに「暑い?」という属性があることを抽出する、という研究。これを属性と呼んでよいのか分からないが、既存の Wikipedia や Freebase といった知識源と比べても、被らない属性 (値) が抽出できているとのこと。質疑応答で、「これまで知識獲得と言えばナイーブな知識と実知識という区別があり、ナイーブな知識では実際の推論に役に立たないと言われてきたが、この研究は実知識を抽出するおもしろい研究だ」という評価をしている人がいたが、結局検索にまつわるさまざまなログというのは、このような実際に使えそうな知識を抽出するためには宝の山なのである。そのまま死蔵しているところも多いと思うが、活用できるならしたらいいんじゃないかなぁ。(思ったより、ほしい知識は取れないかもしれないが、ある種のおもしろい知識が取れる、というのは確かである)

昼休みのあと、ふと入った形態素解析のセッションで、@keiskS くんが「Mac のディスプレイのコネクタありますか」と突然相談してきたのでなにかと思えば、どうやらこのセッションで no show があるようで、急遽繰り上げで発表することになるかもしれない、とのことであった。

  • Keisuke Sakaguchi, Tomoya Mizumoto, Mamoru Komachi, and Yuji Matsumoto. Joint English Spelling Error Correction and POS Tagging for Language Learners Writing. COLING 2012.

果たして実際発表することになったわけだが、練習する時間もほとんど取れていなかったのに、ちゃんと時間内に収めて話してすごいなと思う。質疑もそこそこ活発だったのでよかった。しかしこんな突然で繰り上げ発表できることになっても、最初から自分の話を聞きに来ようと思っている人はいないわけだから、潜在的に聞きたくて聞きに来てくれる人を取り逃がしてしまうのはとてももったいない気がする。まあ、逆に「へえ、こんな研究もあるんだ」と思う意外な発見があるかもしれないが、少なくとも今回の国際会議ではなかったかな……

午後のセッションは言語教育関係の発表がいくつかあって、

  • Julian Brooke and Graeme Hirst. Robust, Lexicalized Native Language Identification. COLING 2012.

第二言語話者の英作文の母語推定の研究に取り組んだもので、テストデータと訓練データにそれぞれ Lang-8 を使っているそうで、彼らも使っているのか、とびっくりした。手法自身に目新しいところはほとんどないが、学習者コーパスは課題作文が多く、学習者のレベルもまちまちで、コーパスの偏りが激しいので、分野適応をちゃんとしたほうがよいことが分かった、というのは納得の結果。あと Lang-8 コーパスを訓練に使うと、先行研究と違い CFG の素性が役に立たないことが分かったということだが、そりゃ Lang-8 の生データを構文解析しようとしたら失敗するわな、という感じで、何がしたかったのかいまいちよく分からない……。結局大事なのは、特定の学習者コーパスだけで学習しても、語彙的な素性はコーパスの偏りの影響を大きく受けるので、頑健な手法にするためにはコーパスの偏りを減らす必要がある、ということである。我々も最近複数の学習者コーパスを学習・テストに使っているのだが、全く同じような問題に直面しており、世界中どこにいてもぶち当たる課題は同じなんだなと苦笑。

また、

  • Martin Chodorow, Markus Dickinson, Ross Israel and Joel Tetreault. Problems in Evaluating Grammatical Error Detection Systems. COLING 2012.

も、このところ [twitter:@tomo_wb] くんとよく話していたような評価にまつわる問題を暑かった研究。誤り検出・訂正のようなタスクでは、入力とシステム出力と正解出力の3つのデータがあり、3本のデータのアライメントを取って評価をしなければならないわけだが、accuracy や recall, precision, F-measure, kappa などいろんな評価尺度があり、アプリケーションによって何をどれくらい重視するのかは異なるので、どうすればいいか、という問題。結局 accuracy や precision, recall, F-measure だけを報告するのではなく、生の true positive や true negative の値を報告したほうがいい、というのがこの論文の主旨。というのも、たとえば前置詞の誤り検出をする場合、誤りと検出するチェックポイントをどれくらい取るか (あらゆる単語間で脱落誤りをチェックすることもできるが、名詞句の先頭あるいは動詞句の末尾だけをチェックするようにすることもできるので、負例の個数は変動する) で accuracy や kappa も変わってくるので、計算した結果だけ載せても意味がない、というのが彼らの主張である。全くおっしゃる通り。評価方法自体でこれだけ話題がまだあるというのが、やっぱりちょうど発展期にある研究テーマなのだと思う。

発表終了後の休み時間に少しだけ Joel さんと話し、お互い近況報告をしてみたり。ETS から Nuance に最近転職されたそうだが、相変わらず精力的に活動されているみたいで、進行中の実験結果をお聞きしたりする。こうやって未発表の研究結果が話せる、というのはいいなぁ。自分もそれくらい持ちネタのストックをして、実験もして、というようにできればいいのだけど……。

あと

  • Jason Naradowsky, Tim Vireira, David A. Smith. Grammarless Parsing for Joint Inference. COLING 2012.

もなるほどなという感じで、双対分解に代表されるような結合学習の手法は、けっこう実装が面倒くさく、時間もかかることが多いのだが、この論文では factor graph を用いることで簡単に結合学習する枠組みを提案している。大規模化するのも手軽だし、精度もよいのだが、すごく簡単だというほどには簡単ではないような……(グラフィカルモデルに慣れていれば難しくないだろうけど)。あとのティーブレイクのとき、Jason にも久しぶりに会って話をしたら (彼は今年3ヶ月ほど松本研に滞在していたのである)、奈良にいたときは楽しかった、また来たい、という話を聞いて、やっぱり人それぞれで、好きな人は好きなんだなと思ってちょっと嬉しくなる。NAIST は万人にとってよい大学ではないと思うが、NAIST がとても楽しく思う人はとても楽しめると思うので (トートロジーみたいだが)、もし受験を検討している人がいたら、オープンキャンパスで在学生を捕まえていろいろ話を聞いてみるとよいと思う。たぶん、足を運ばないと分からないと思うし、直接来てみて「なんかここは違う」と感じたら恐らくその直感は正しいので、もっと都会の大学に進学したほうがいいと思うのである。

夜はレセプションがあるというので行ってみたら、地元の大学生が延々出し物をやるイベントで、会場はやたら寒くて体調を崩しそうだし、ただ坐って何時間も見させられるのはしんどくなり (普通レセプションといったら軽食とワンドリンクくらいは出るものだし)、1時間半ほど聞いて退散。autorickshaw に乗って帰ってきたが、あとで他の人に会場とホテルの間を autorickshaw で移動したときの相場を聞いたら2倍近い金額を払っていたようで、ちょっとショック。まあ、何台も交渉するのに使う時間を考えると、日本円にして100円程度余分に払うくらいで解決ならそれでいい、ということなのかもしれないが……。相場以上に払う人がいるから、出し抜いてふっかけようとする人が出てくるわけで、そういう世の中になるのはあまり好きではないから、加担しないで済むなら加担したくないのだが、交渉にまつわる精神的疲労を考えると (このプロセスが楽しいと思う人もいるだろうが、自分はもう楽しいと思うフェーズを過ぎてしまった)、やっぱり払ってしまうかなぁ。