研究は試行錯誤がおもしろい

今日はようやく在宅勤務。上の子は今週の火〜木はオンライン授業に学校から出ていて、弁当持参で学童に行っていたのだが、今日は家でオンライン授業にしたいとのことで家からつなぐ。

で、書斎がいいと言うので書斎を開け渡したのだが、タブレットの電源が切れた（アダプタをつないだ）だの、鍵盤ハーモニカがない（学校に忘れたと申告したが、実は家にあった）だの、色々と大変なので、来週からは学校に行ってもらう（ただし、学童には行かないで昼ご飯は家で食べて昼からは家で過ごす）ことに……。

午前中から午後にかけては論文紹介と共同研究のミーティング（それぞれ1時間ずつ）以外はひたすら修士論文を見たり（合計3時間強、5本）、メール処理（合計2時間）したり。修士論文は後1本を残すのみとなった。

夕方は理研 AIP セミナーで Grammarly の GECToR についての話を聞く（スライド）。これ、2020年当時英語の文法誤り訂正で世界最高精度だった手法なのだが、その開発に関わる（論文に書かれていない）秘話を色々聞くことができたのが収穫であった。

実はこれを研究ているとき同じように系列ラベリング（編集操作）で文法誤り訂正を行う、という手法（Parallel Iterative Edit, EMNLP 2019）が先に提案されて焦った、というのが話の中に出てきたが、うちの研究室でも2017-2018年くらいに金子くんが編集の系列を用いる GEC に取り組んでいて（GEC だとほとんどはそのままのトークンを出せばよく、部分的に挿入や削除、置換をすればいいだけのタスクなので、機械翻訳のように全部一から生成するのは無駄に見えた）、その時はうまく行かなかったので諦めた記憶があるが、Transformer でやるようになった（BERT や XLNet も登場した）のが大きく違うのかな。ちょっと試すのが早すぎたのかもしれない。

ちなみに F0.5 で評価するような最小限の訂正を行う minimal edits であれば多分このようなアーキテクチャでやるのが一番よく（GEC に限らず入出力でほとんどのトークンが同じようなタスクだと同様）、流暢になるように大きく書き換えるような訂正を行う fluency edits だと GPT のような言語モデルを用いたアーキテクチャでやるのがいい（抽象型要約や対話みたく、入力と出力が結構変わるタスクも同様）と予想しているのだが、これも理念的には正しいが、現在のシステム（データ、モデル、等々）だとうまくいかない系（数年後に複数の技術的要因が解決されて、最終的にうまく行くようになるもの）なのかも、と思ったりはしている。

ともあれ、フォーカスするデータや評価尺度を決めてしっかり開発をする、というのが大事だというメッセージだったように思う（なぜそのデータにするか、なぜその評価尺度にするか、という話はそれとは別にある）。