英文誤り訂正もレッドオーシャン

今日は論文紹介をすることになっていたのを忘れていたので、急遽読み始める。

なんとか間に合い、

  • Alla Rozovskaya and Dan Roth. Joint Learning and Inference for Grammatical Error Correction. EMNLP 2013.

を紹介する。

これまでの英作文の文法誤り訂正では、相互に依存関係があるような誤りでも、個別に訂正するか、あるいはパイプラインで順次に訂正していて、相互に矛盾するような訂正をしてしまう、という問題があった。そこで、この論文は、整数(線形)計画問題 ILP (integer linear programming) として誤り訂正を定式化し、制約を加えることで相互に矛盾した訂正を行わないような手法を提案した。また、相互に依存する誤り訂正を行うため、複数の誤りタイプの訂正モデルを同時に学習する手法も提案し、実験によって同時推論・同時学習のいずれもが、現時点で世界最高性能の誤り訂正システムの性能をさらに向上させることを示した。

この論文の著者らはイリノイ大学の研究グループで、彼女らの作った誤り訂正システムは2013年の誤り訂正のコンペでもぶっちぎりで1位の性能を叩き出し(NAISTチームは17チーム中4位)、そこからさらに4-5ポイント上げるというのは化け物のような精度なのだが、やっていることは真っ当で、ストーリーも素直だし、手法的にはほとんど決定版に近いのではなかろうか。あとは本論文でも述べられているように、タスク自体の難しさ(誤っている箇所がほとんどない場合、ほとんど外れ値検出のタスクになる)をどう解決していくかといった問題や、評価尺度の問題、そしてデータスパースネスの問題をなんとかして解決していくのであろう。

第二言語学習者の誤り訂正も数年前はマイナーどころだったように思うのだが、一気に多数の研究グループが参入するレッドオーシャン化した感がある。共通のデータセットと評価尺度が公開されたのも大きい。とはいえ、これらのデータセットや評価尺度がパーフェクトであるわけでもないので、ここから先が(言語学習・言語教育の研究者としての)研究の正念場である。

午後はサーバの設定。先日の続きである。RAID の設定がうまくいかなかったので、再度インストールからやり直すことにしたのだった。システム領域はマザーボードについているRAIDミラーリング)任せようとしたのだが、これがいわゆるFakeRAIDで、BIOSで設定する割にはRAIDはソフトウェア的に実現されている、というもので、Ubuntu側から設定を解除できてしまうのでやり直しになったのである。また、3TBのHDDがなぜかRAIDを組むと1台当たり800GBしか認識されない問題もあり、なにかHDD周りが鬼門であった。

さて、前者の問題は(一度スーパーブロックを消去する必要があったものの)問題なく終了。後者の問題も、原因は不明だが、全てのHDDを一度gpartedでGPTを使ってフォーマットしたら認識するようになり一安心。結局6台でRAID 5にして、合計13TBくらいが使えるようである。とりあえずウェブをクロールしたりしている人はいないので、これで問題になることはないと思うのだが、これで足りなくなったらまた考えよう……。

夕方はLRECという国際会議(言語処理に関するリソースや評価についての世界最大の国際会議)の原稿の添削。10/15が〆切のようである。この会議は他の会議とちょっと違い、extended abstract と呼ばれる2000単語までのアブストラクトによって査読が行われる(ダブルブラインドではなくシングルブラインドなので、著者が誰なのかは査読者には分かる)。アブストラクトという名前ではあるが、図表を入れてもいいし、参考文献も入れていい(単語数にはカウントされない)し、シングルカラムで5-6ページは書けるので、ちょっとしたショートペーパー並みのものが用意できる。逆に言うと、アブストラクト段階でも結果まで書けるなら書いた方がいいわけで、最終フォーマットと違う形式の原稿を用意するのはちょっと大変……。

ちなみにLREC 2014はアイスランドレイキャビク)開催なのだが、5月下旬に行くのは個人的には無理があるので、採択されても行くのは松本先生にお願いする方向……。