学習者の英語の前置詞誤りや日本語の格助詞誤りについて考える

午前中、定例の1:1ミーティング。タスクを決めること、そして使うデータ (コーパス、辞書) を決めることが研究をスタートする一番の山場。どちらかが決まっていたら、もう片方は決めやすいし、両方が決まっていたらあとは手を動かすだけなので、時間をかければなんとかなる。タスクもデータも決まっていないと、迷走して無為に時間を過ごすことが多いので、とにかく最初はタスクかデータかどちらかを固定し、もう片方も決める、というところに時間をかけないと、あっという間に与えられた時間が過ぎてしまう。(M1 の人だと就職活動までの時間、M2 の人だと卒業までの時間)

東工大奥村研 M1 の @moc_yuto さんが実は用事でしばらく生駒に住んでいらっしゃるとのことで、ご飯でも食べつつ夜の勉強会でもどうですか、とお誘いする。あまり自分の研究室以外の勉強会なり環境なりを見る機会もないと思うので、チャンスがあると出てみると参考になると思う。(今年は NAISTJAIST東工大の合同研究会もないようなので、先日の NLP 若手の会シンポジウムにいらっしゃらなかった東工大の学生の方々は NAIST を見ることもしばらくないと思うし) 学生のころの話とか、就職活動の話とかしてみたりする。

19時から言語教育勉強会。今回は@keiskS くんが

  • Alla Rozovskaya, Dan Roth. Algorithm Selection and Model Adaptation for ESL Correction Tasks. ACL 2011.

を紹介してくれる。

この論文、著者らの発表を直接聞いたこともあるのだが、ちゃんと読めてよかった。思うに、英語学習者の前置詞誤りの訂正に取り組んでいるところがポイントで、誤り訂正だと (書き忘れと書き過ぎは対象外として、間違えて書いたもののみを対象とすると) どの単語をどの単語に間違える確率が高いかという混同行列 (confusion matrix) というものを作ることが主要なタスクの一つなのだが、前置詞だと十数個×十数個の行列を埋めればいいので、データが少なくても確率値を適切に推定できる、ということなのかと思った。(他にも OCR の誤り訂正だと、一見見ると似ている漢字、たとえば東と束みたなのの誤り確率を推定するが、日本語の漢字は数千×数千のオーダーなので大変)

しかし統計的機械翻訳なんかでは、たとえばフランス語から英語への翻訳で使う素性として言語モデル P(e)、両方向の翻訳モデル P(e|f) と P(f|e) を入れるので、誤り訂正でも全部入れたらいいのに、と思う (本研究でも、言語モデルだけと、誤りモデルの片側だけを使っている)。まだまだ他のテーマと比べて立ち後れている感はあるが、コーパスも最近できたばかりだし、これからいろいろとやれることはあるだろうし、自然言語処理の応用先の一つとして発展するといいなと思う。

後半は @wk_kiyoshi くんが修士論文の M1 で最初の中間発表の練習。

いろんな勉強会メンバーが活発に質問やコメント、アドバイスを発言していて嬉しいものである。(スタッフが先に口を開くと学生があまり発言しなくなる、という現象が確認されているので……) 発言するのも勉強で、どこが改善できそうか (あるいは「自分が同じタスクをやるならこういうアプローチでやる」「自分が同じテーマで発表するならこういうスライドにする」) ということを考えながら聞くと、俄然研究能力が上がってくるようになるのである。ぜひみなさんも積極的にツッコミを入れてほしい。

研究室の中でもまれておくと、外で発表するときも困らない。いろんなコメントがつくのをネガティブな意味で「叩かれる」と言う学生がいるのだが、本来「叩かれる」というのは研究の場面では歓迎することで、誰もなにも反応を示してくれない発表が最悪で、コメントができないような発表をしようと努力する人がいるのだが、コメントのしようがない (する気にならない) 発表はコメントがたくさんつく発表より明らかに悪いので、たくさん意見がもらえたら (反映するのは大変だけど) それはみんなから成長のチャンスをもらえているということなので、むしろありがたいことだと思うのだけどな。