セミナーの最後はもものカプレーゼ

今日は保育園の運営会議だったのだが、仕事があるので欠席させてもらう。前回もたまたま出張の日に重なってしまったのだが、一度欠席すると次回の予定を決めるときに予定を考慮してもらいにくいので、連続して欠席する羽目になりがちである。

午前中は首都大の秋葉原キャンパスに行き、GoodWriting Rater 第2回公開セミナーの準備。設営をしたりなんだりをしないといけないのである。秋葉原キャンパスを使うのも最近は経験が増えてきた(無料で利用でき、アクセスもよいので、もう両手で数える以上利用している)ので、慣れてきた。どこにどういう設備があって、何人までは快適に使えるか、など……。一応3部屋つなげれば最大で90人くらいは入るのだが、プロジェクター・スクリーンの問題(縦長の部屋なのに、スクリーンが1台しかない)で快適に使えるのは50人までで、もっと言うと現実的には40人くらいが余裕持って使える限度ではないかと思う(今回は紙の資料も配布したので、スクリーンが見にくければ手持ち資料を見てもらう、という対応をした)。

今回のセミナーは定員50人にしたところ、申し込みは50人ぴったりで、当日キャンセル等があり、発表者・司会者を入れてちょうど50人になったので、部屋の読みとしてはちょうどよかった。アクセスがよかったせいかどうかわからないが、九州等の遠方から参加される方もいらしたようである。実際に日本語を大学で教えている方がメインの聴衆層ということで、自分は日本語のライティングの自動評価システムの裏側の話をしたり、実際のこのシステムを使って留学生に日本語ライティングの指導をしたときのケーススタディのトークがあったり、あるいはこのシステムを使って正攻法で点数を上げるグループと、ズルをして点数を上げるグループに分かれて競い合ってもらったりした報告のトークがあったり。

作文の全ての文字を「お」に置換するとなぜか点数が上がる、という報告があって会場がどよめいたのが、今日のハイライト。実はこれ、チーティングのグループが試したことだそうで、全ての文字を「あ」にしたものは点数が低く、「い」でもダメ、「う」でもダメ、と試していって、「お」にしたら全体のスコアがなぜか上がった(日本語や目的・内容、構成・結束性のスコアも高い)、というものである。どうも「お」は「尾」「おお(感嘆)」などたくさんの携帯素に切れるからではないか、という話だが、びっくりの結果である。そもそもなんでこんなことを試そうと思ったのか、というのはクレイジー(褒め言葉)である。ちなみに、以下のような感じの作文である。

おおおおおお、おおおおおおお、おおおおおおお、おおおおおおお、おおおお おおおおおおおお。おおおおおおお、おおおおおおお、おおおおおおおおおお おお。

おおおおおおおおお、おおおおおおおおおおお、おおおおおおおおおお。おお おおおおおおおおおおおお、おおおおおおおおおお、おおおおおおおおおおお おおおお。おおおおおおおおおおお、おおおおおおおおお、おおおおおおおお、 おおおおお、おおお。おおおおおおお、おおおおおお、おおおおおおおおおお、 おおおおお、おおおおおおお、おおおお。おお、おおおおおおおおおおお、お おおおお。おおおおおおおお、おおおおお、おおおおおおおお、おおおおおお おおおお、おおおおおおお。おおおおおお。おおおおおおおお、おおおおお、 おおおおおおおお、おおおおおおおおおお、おおおおおおお。おおおおおお。 おおおおおおおお、おおおおお、おおおおおおおお、おおおおおおおおおお、 おおおおおおお。おおおおおお。おおおおおおおお、おおおおお、おおおおお おおお、おおおおおおおおおお、おおおおおおお。おおおおおお。

おおおおおお、おおおおおおお、おおおおおおお、おおおおおおお、おおおお おおおおおおおお。おおおおおおお、おおおおおおお、おおおおおおおおおお おお。

これ、実は BERT ベースの日本語ライティング能力推定器ではどれも別に高くならない、ので、素性ベースの手法だとやはり意味を見ていないのでよくないのでは、というきれいな結論になりそうなのだが、形態素が細かく切れるなら「も」も「すもももももももものうち」みたいなのがあるので点数が高くなるのでは、という意見があり、BERT ベースのもので試したところ、だいたい点数は低いのだが、なぜか「構成・結束性」が最高点になってしまう、というオチがあった。(多分データが全体でも150作文で、5-6点は30作文弱しかないためだと思うが)

セミナーのあとは懇親会で、スタートしてから5年間の肩の荷が降りた感がある。「小町さんがこの中で一番若いでしょう。35歳くらい?」と言われて、いやいや参加したときは36歳だったけどいまは41歳ですよ、という話をしたりする。科研の代表の田中先生も、気がついたら定年退職していまは名誉教授になられていて、大学には出勤していないそうだし、5年も経つと色々変わるなと思ったりする。自分としては、日本語ライティングのデータの収集からアノテーションまでじっくり関わることができて、よい経験になった。あとはこのデータを使って研究をしていければいいなぁ。

写真は懇親会で出た「もものカプレーゼ」である(全部「も」に置換したライティングが高いスコアを出しただけに)。