食わず嫌いせずに一度は試してみるとよいこともある

週明けメールを読んだり書いたりに忙殺されるのはいつものこと。

昼から [twitter:@MitI_7] くんの学内発表。[twitter:@keyakkie] さんがいろいろ質問してくださってなるほどなと思う。あとで WebDB Forum 2011 で @MitI_7 くんの研究に似たこういう研究がありますよ、ということまで教えてくださって、非常に助かる。誰がどう、というわけではないが、やはりこういう場所で質問とかコメントできる人が結局研究者として残っていける人だと思うので (たとえば海外に研究インターンシップに行けたりだとか、学振に採用されたりだとか、あるいは研究所に就職が決まったりだとか)、そういう道に進みたいと思っている人は、積極的に発言してほしい。

自分は割合いろんなものは形から入るほうで、研究者の人がやっているものがある、と聞くととりあえず試してみたりしている。それをしたら研究者になれる、というわけではないが、やったらよい、と薦める人がいるのであれば、なにがしかの意味はあるのだろうな、と思って、しばらく続けて意味が分かったら止めてもいいわけで。

「ひとりブレインストーミング」も新井先生の授業で「合う合わないは人それぞれあると思うし、嫌なら嫌で今後やらないのは全然かまわないけど、この授業では一度それを体験してみてそれで判断してほしいから、これは自分に合わないと思ってもひとまず我慢してそれでやってレポートを書いてください」と言われたので (面倒くさいなぁ) と思いながらやってみて、意外に自分に合っていて愛用しているので、たぶん食わず嫌いでやってないことって世の中にたくさんあるので、1回くらいは試してみてもいいのでは、と思うことは多いのではないかな。

午後、機械翻訳勉強会。[twitter:@neubig] さんが今日も来ている、と思ったら、月曜日の午後は NAIST に来る日にしたそうだ。いろいろと論文紹介にも、発表練習にもコメントくださって、大変助かる。というか、勉強会の数が多すぎて、自分一人で全部カバーするのは不可能で、助けてくれる方がほしかったので、渡りに船、感謝感謝。来年度はもう少し楽になるはず。というか、なってほしい……

夕方、意味談話解析勉強会。[twitter:@shirayu] くんが英語の誤り訂正についてのサーベイを紹介してくれた上で、

  • Martin Chodorow, Michael Gamon, Joel Tetreault. 2010. The utility of article and preposition error correction systems for English language learners: Feedback and assessment. Language Testing, 27(3), pp.419-436.

を紹介してくれる。最近日本語学習者だけでなく英語学習者の誤り検出・誤り訂正にも着手するつもりでいろいろと調べていて、英語学習者の誤りにも大きく分けていくつかのタイプがあり、自然言語処理技術での直せ易さにもいろいろあるのだなということが分かってくる。あと、印欧系の言語を母語とする学習者と、アジア系の言語を母語とする学習者で、間違いの傾向が違ったり、習熟度別に誤りが全然違ったり。日本人の英作文 (たとえば甲南大学と教育測定研究所が作成した KJ コーパス) は他の英作文コーパス (たとえばケンブリッジ大学で作成された CLC コーパスシンガポール国立大学で作成された NUCLE コーパス) と比べて誤りの数も多いようなのだが、見方を変えると誤り検出・訂正しがいがあるデータだ、ということでもある (笑)

スペル誤りだと文字列 (あるいは音) の編集距離を用いた手法でけっこう直せるのだが、文法誤りは編集距離ではどうしようもないので、こういうのを直すには機械学習とか統計的な手法の出番でもあり、自然言語処理的にはやりがいのある分野かなと思う。

編集距離を用いた手法については最近 [twitter:@f_nisihara] さんが入門記事をブログにまとめてらして、たとえば文字列の類似度を測る (2) 発音に着目するなんかは分かりやすい。ちなみに、ここで紹介されている Soundex とか Metaphone といったアルゴリズムは、オープンソースGNU aspell でも実装されている (aspell の前に使われていた ispell は、単なる文字列の類似度しか見ないが)。テーブルは非常に小さいので、興味ある人いたら aspell のページの を見てみるとおもしろいだろう。