Wikipedia の編集履歴のログマイニングによる前置詞誤り訂正

週明けはやはりメールが溜まっていて返事を書いているだけであっという間に3時間。休みの日や夜にはメールの返事をしないことにしているのだが、やはり家でも仕事ができるようにして早めに帰ってきたほうがいいのだろうか。松本先生も午前3時くらいまでメールの返事が届くし……。

お昼に共同研究の申請書の最終ミーティング。ちょっと関わる人が多く、どこを誰が書くのかよく分からないので、とりあえず自分のできることをしよう。

午後は言語教育勉強会。[twitter:@mitsuse_t] くんの進捗報告と lis-k さんの論文紹介。lis-k さんが紹介してくれたのは

である。この論文自身、去年の ACL 2012 で我々が Lang-8 を使った研究を発表してから共著者の Joel さんが「Lang-8 のデータについて教えてほしい」と問い合わせがあり、いろいろとやり取りをして (実験内容の中間経過を教えてくれたり) きた論文なので、謝辞に我々の名前が載っていて感慨深いものがある。

内容としては Wikipedia編集履歴から誤り訂正のコーパスを作成して前置詞誤り訂正に使う、というもので、Lang-8 から抽出した誤り訂正システムなどと比べ、Wikpedia の編集履歴から抽出した大規模コーパスは複数の学習者コーパスで頑健に誤り訂正を行うことができる、という内容。結果も分かりやすいし、よい論文だと思う。

少なくとも前置詞誤り訂正に関しては、モデルがどうこうという問題以上にどのようなデータ (規模、多様性) を使うかが性能にクリティカルな影響を与える、ということが分かってきている。前置詞は有限個しかないので、(たとえば動詞の語彙選択などと比べて) そんなにデータの量は関係なさそうな気がするのだが、そういう第一感からすると現実は反対のようなので、なんでそうなのか個人的には興味がある。

今年は2本言語教育関係の発表を ACL ですることができるが、来年はどうだろうな〜。年に1回くらいは国際会議で発表できるとよいのだが……。

夕方から夜にかけて、研究計画書の執筆。火曜日の正午が〆切なので、最後の追い込みである。集中して9時間くらいかけて最終バージョンを作る。午前1時半まで大学に残ったのは初めてかも。とりあえず投稿だけして帰宅。翌日の授業の準備、まだ1/3くらいしかしていないので、ちょっと不安……。