半年越しに分かることもある

iPad 2 のカバーだけ届いたのだが、これをどうしろと……

論文にコメント入れる。今日は論文読みに戻る。

昼からNL研の発表練習。松本先生のコメントがけっこう厳しい。しかしどれもごもっともである。まあ、研究室の中で受けるツッコミがいつも一番厳しい。外に出てしまうとおもしろくない研究にはみんなスルーするだけなので、ツッコミがもらえるのはポジティブなことである。

言語教育勉強会では

を読んだ。簡単にまとめると、英語の第二言語学習者の作文訂正のタスクを noisy channel model を使ってやるという話で、モデルを言語モデルと誤りモデルに分解し、言語モデルは bigram で生成し、誤りモデルはスペル誤りモデル・冠詞誤りモデル・前置詞誤りモデル・語形誤りモデル(動詞の三単現とか)・単語挿入誤り(ただし冠詞と前置詞のみ)モデルの5タイプに分類し、それぞれのパラメータを誤りが含まれるコーパスから教師なしに EM で求めるというストーリー。

人手で修正した添削文が大規模にないと統計的機械翻訳的な手法はあまりうまく行かない(これまでに見たことのある誤りしか直せない)のだが、教師なしの手法だとデータはたくさん増やせるのが嬉しいところ。nokuno さんが以前紹介していた論文と同じような感じだが、言語教育にも使えるかな〜と思っていた。

ただ、言語モデルが bigram だというところと、誤りモデルが貧弱(誤り訂正で一番難しいのは候補を生成するところで、上記のモデルはあまりにナイーブ)で、研究的にはおもしろいかもしれないが、実際使いものにはならなそうだな〜(結果も微妙だし……)。松本先生もそのあたり激しいツッコミ。ごもっともではあるが……。

去年から松本先生が「こうやったらうまく行きそうだから、やってみたら」という手法、なにがやりたかったのかようやく分かった。単語に分かち書きされていないと面倒だが、分かち書きまで正しくできているなら行けそう。英語版は自分も使いたいので誰かやってほしい (笑)