解決しないといけない問題は、先送りしてもいつかはまた対峙することになる

朝、研究室に集合して seiji-k くんと [twitter:@tkyf_7] くんと合流して NTT へ。[twitter:@tomo_wb] くんは現在東京なのでお休み。

seiji-k くんと @tkfy_7 くんにいろいろと研究の進捗をしてもらい、ディスカッション。研究の進め方について参考になる。先日共同研究の去年の秋からの進捗報告 (最初は自分がしていた) も含めて読み返すと、必ずしも最初やっていたことと、最終的に論文になった研究は違うのだが、データを見つつ実験していろいろと試行錯誤すると、落ち着くところに落ち着いていると思うし、これは実装に時間がかかるから別の手法でやろう、という決断を下した場合でも、実験と論文書きが一段落すると、やっぱりこの問題を解決しないことには先に進めない、というところに戻ってきてしまう。やっぱり、最終的には腹をくくって取り組むしかないのかなと思う。

お昼は N 田さんと4人で幸庵へ。実は奈良に7年いて、しょっちゅう横を通っているのだが、まだ一度も入ったことがなかったのである。味はけっこういける。値段も (六本木価格に慣れると) 良心的。学生さんにはちょっと厳しいかもしれないが……。また夜来てもいいかな〜。

昼から takuo-h くんの中間発表。これまで研究室で3回ほど発表練習 (+進捗報告) を聞いていたが、それらと比べると全然違うテイストで、激しく分かりやすくなっていてよかった。具体的にどうやるのかはさておき、やりたいことがどういうことかは伝わったのではないかと思う。

午後、ちくちくとコーパスの修正。XML タグが手打ちされていたらしく、閉じ忘れていたり二重引用符が重なっていたり、いろいろと問題が起きているのであった。(と、ひたすら手で直していたのだが、数時間後、全部直したのがあると聞き、さすがにこの状態のものを使っているわけないと思ったし、最初から聞けばよかった、と後悔……)

夜、言語教育勉強会。今回は [twitter:@mrcarrot] くんも立川から参加なので、Skype 参加が3人に。前半は、yu-s くんが

  • Helen Yannakoudakis, Ted Briscoe, Ben Medlock, "A New Dataset and Method for Automatically Grading ESOL Texts, ACL 2011, pp.180-189, 2011.

を紹介してくれる。ケンブリッジ大学で作っている Cambridge Learners Corpus (CLC) というものがあるのだが、その CLC の一部に含まれているコーパスの話と、First Certificate in English (FCE) というテストのスコアをテキストから自動で予測するとき、ランキング学習を用いたという手法の話。実験設定的に微妙なところもあり、手法のよさは一概に言えないような気がするのだが、CLC-FCE は誰でもダウンロードして使うことができるので、このコーパスを公開した成果は大きいと思う。(CLC 全体の1/100程度のサイズで、CLC 全体はケンブリッジ大学のそのグループと共同研究していないと使えないようなのだが) 英語学習者の作文誤り訂正の研究のために、言語教育勉強会のメンバーががんばってコーパスを調べたり使えるようにしたりといろいろがんばっているようなので、自分も陰ながら研究費で必要な書籍を注文したりと生暖かく見守っているところである。

あと進捗報告は takeshi-na さんにしてもらう。やりたいことは決まったしデータもあるし、あとは適切な手法で分析してまとめればよいと思うのだが、どうなんだろう。なにをターゲットにするか、どのデータを使うか、が決まった時点で研究の7割は終わっていると思うし、そこから先はそんなに凝らないでいいと思うのだが……(とデータドリブンな研究スタイルの自分は思うのであった)

勉強会終了後 hiromi-o さんとデータについて話したりしていたら、終わったのはもう午後10時。それから妻と電話して11時。うーん、火曜日はほとんどなにもできないな〜。