発表スライドを作るのは自分のためでもある

夕方から言語処理学会の年次大会の発表練習。みんな修士論文で発表した人たちばかりだし、修士論文の発表のときは20分あったところ、15分に縮めればよいだけなので、割と安心。(とはいえ、今回聞く人はみんな言語処理の専門家なので、修士論文の発表のままの話し方がよいとは限らない) 同じ話のように見えても、断続的に何回もやっていくと、前には気がつかなかったことに気がついたり (ああ、この実験ってこういう意味があったんだ、みたいな) するので、ときどきまとめて振り返ると成長を実感できると思う。

夜、誤り訂正進捗報告。みんな少しずつ進んできていて、いい感じ。スライド・口頭とも英語で話し、議論も英語でする、というのが定着しつつある。自分自身修士のとき共同研究の進捗報告で (スライドを作るのは正直面倒くさいし、時間を奪われてしんどかったが) 毎回作っていた資料が、その後いろいろと役に立ったりした (自分自身、昔なにをやっていたのか思い出すのに役立つこともあれば、作った資料を再利用して簡単に違うスライドを作ることができたりした) ので、ちょっと手間だとは思ってもしっかり記録に残しておくことは重要だと思う。手で実験して口頭で結果を言うのだけでは、たぶん半年後には実験をした自分自身何も覚えていないので。

深夜、NAIST誤用コーパスタグづけミーティング。3月3日にあったシンポジウムの話をシェアしてくださったのだが、日本語学習者作文コーパスというものが公開されているそうだ。検索が使いやすい。誤りの種類を細かくつける立場と、誤りの種類はつけないで誤り個所 (と訂正先の文字列) だけつけるような立場と、大きく分けて2つあると思うのだが、NAIST 誤用コーパスは前者で、こちらのコーパスは後者のようである。

結局、細かく誤りをつけるかどうかというよりは、なにを誤りと見なすのか、というところをはっきり決める必要があるのかと思う。特に、「ああ、この学習者は知っている語彙と文法の範囲内で、がんばってこう書いたんだな。正しくはこう書かないといけないのだけど、こんな単語・表現はこの学習者は知らないだろうな」というようなとき、それを「直す」べきかどうか? というのが今回の議題。

直される側の立場に立つと、自分ができないような書き方に直されても困る (身につけることができない) わけで、どのレベルまで直すか、というのを決めないとなかなか難しい、と……。また、もし仮に直す先のレベルを決めたとしても、入力側の学習者のテキストのレベルが様々だとやはり統一するのは難しいようで、こうなると入力側もレベルを揃え、出力側もレベルを揃え、としないと安定して誤りのアノテーションができないのかなと思ったりする。

考慮するべきテキストがペアになって2つある、というところが、普通のテキストに対するアノテーションとちょっと違うところであり、確か以前松本先生も「ChaKi.NET でこれもタグづけできるようにしなければ」とおっしゃっていたような……。