やったことがある人しか分からないのが独創的であるということ

朝、停電からの計算機の復旧のために出勤。イオンが開いていない時間に来るのは久しぶりである。

出勤して計算機室に行くと、まだITCの方がいらしていないのか、UPSの電源が入っていなかったのでしばらく研究室で待機。1時間ほど待ってみたが、動きがないようなので問い合わせてみると、自分で入れるものだったらしい。去年はITCの方が入れたと記録にあったのだが、毎年少しずつ変わったりしているからかな？以前は高電圧をかけるテストをするので完全にコンセントから抜く必要があったりと、けっこう面倒くさかったし。

サーバ群の電源を順番に入れ、あとはM1の計算機係のお2人にお任せする。いろいろ動いてくれてありがたい。いろいろあって予定より3時間長くかかってしまったが、一応だいたいのサービスは復旧する。論文投稿シーズン前に計算機環境整備もしたいのだが、今年は年末に新しいサーバが来るし、そちらに時間を投入してもらったほうがいいので、今回は軽〜く。新しいサーバ一式は今日が入札結果の通知日だったようで、無事一つの業者に落札されたようだ。応札できる業者が1社だけだと入札が流れてしまうとか、いろいろ調べながらやっていて大変だったが、なんとか落ち着いてよかった。ここから先は、これから使う人たちにがんばってもらうところ :)

午後は言語教育勉強会で、[twitter:@tomo_wb] くんと[twitter:@tkyf_7] くんの進捗。@tkyf_7 くんはしっかり英語で資料を作ってきてくれていたので、budi-i さんも議論に参加できてよかった。タグ付けの単位や辞書の単位についての議論が深まった。頻繁に回るようにしているので、ちょっと大変かもしれないが、説明を何回かすると理解が深まることもあるので、特に修士の人は資料を準備して臨んでくれると嬉しい (あとで再利用できるし)。

論文紹介はhiromi-oさんによる

Ben Swanson and Elif Yamangil. Correction Detection and Error Type Selection as an ESL Educational Aid. In Proc. of NAACL HLT 2012.

で、普通の英語学習者の誤り検出タスクでは、与えられた文章から (たとえば前置詞や冠詞といった、特定の) 誤りを見つけるのがタスクなのだが、この論文は、誤っている場所が与えられた上で、その誤りがどの種類の誤りか、というのを当てる (多クラス分類) タスクである。彼らによると、こういう問題設定は初の研究らしい。

訂正先が分かっていて誤りの種類が分からないって設定ってあまりないから、意味ないんじゃないの？と思われるかもしれないが、たとえばLang-8のように大規模な添削サイトがあったりすると、ものすごい勢いでそういうテキストができていくわけで、少なくとも分量的には適応対象となる文章はたくさんあるので、うまい使い道を考えればいいだけで、個人的にはよい着眼点 (問題設定) だと思った。

逆に、なんでショートペーパーなのかというと、使っている素性が適当だったり、対象のコーパスが1つだけ・少量だったり、検出エラーの分析が不十分だったりしているからかな。そういうところもっと拡充すれば、フルペーパーになったのではないかと思う。

連続してソーシャルメディア解析勉強会。hiromichi-s くんと[twitter:@teenst] くんの進捗。それぞれ順調に進んでいるようだ。@teenst くんは [twitter:@kevinduh] さんと新しいタスクに取り組んでいるそうだが、役に立つものができたら使ってくれる人もいるだろうから、がんばってほしいものである。(考えているうちに手を動かしたほうが早いだろうが……)

論文紹介はhiroshi-tくんが

Duan et al. An Empirical Study on Learning to Rank of Tweets. COLING 2010.

を取り上げてくれた。MSRAの人たちによるツイートのクエリによる検索結果のランキングに関する研究。データセットまでが与えられていたら、そこから先の手法と結果と考察はこんなものかなと思うが、データセットの作り方が引っかかる。やりたいことに対して、これでいいんだろうか。アノテータも複数人でやったと書かれていないし、一致率も不明。情報検索系の会議ならともかく、自然言語処理の会議なのだから、もう少し言語的に (タスク的に) どうかという考察がほしいかなぁ。

そうでないと、「誰かが作ったこういうデータセットがあったから、NLPではあまり使われていないこんな手法を適用してみました」あるいは「流行りのこんな手法があるので、とりあえず使えそうなデータセットをちゃっちゃと作って動かしてみました」というような論文になってしまい、どうしてそういう (性質の) データを使うのか、あるいはなぜ提案手法がうまく行くのか (そもそもなんでその手法を使うのか) がよく分からず、確かに誰もやっていなかったら新しくはあるのだが、パズルのピースがはまっていくような「なるほど！」という感じがないのである。(せめて、データセットを作るとき、こういうことが問題だったのでこうしました、というような知見があれば、それはやった人にしか分からないことなので、なるほどそれは言われてみればそうか、と思えるのだが)

ランキング学習については、折に触れて[twitter:@sleepy_yoshi]さんのランキング学習ことはじめを読み返していて、
いろいろ読み返すたびに思うことがある。自分もこういうチュートリアルを作りたいものである。