研究は試行錯誤がおもしろい

今日はようやく在宅勤務。上の子は今週の火〜木はオンライン授業に学校から出ていて、弁当持参で学童に行っていたのだが、今日は家でオンライン授業にしたいとのことで家からつなぐ。

で、書斎がいいと言うので書斎を開け渡したのだが、タブレットの電源が切れた(アダプタをつないだ)だの、鍵盤ハーモニカがない(学校に忘れたと申告したが、実は家にあった)だの、色々と大変なので、来週からは学校に行ってもらう(ただし、学童には行かないで昼ご飯は家で食べて昼からは家で過ごす)ことに……。

午前中から午後にかけては論文紹介と共同研究のミーティング(それぞれ1時間ずつ)以外はひたすら修士論文を見たり(合計3時間強、5本)、メール処理(合計2時間)したり。修士論文は後1本を残すのみとなった。

夕方は理研 AIP セミナーで Grammarly の GECToR についての話を聞く(スライド)。これ、2020年当時 英語の文法誤り訂正で世界最高精度 だった手法なのだが、その開発に関わる(論文に書かれていない)秘話を色々聞くことができたのが収穫であった。

実はこれを研究ているとき同じように系列ラベリング(編集操作)で文法誤り訂正を行う、という手法(Parallel Iterative Edit, EMNLP 2019)が先に提案されて焦った、というのが話の中に出てきたが、うちの研究室でも2017-2018年くらいに金子くんが編集の系列を用いる GEC に取り組んでいて(GEC だとほとんどはそのままのトークンを出せばよく、部分的に挿入や削除、置換をすればいいだけのタスクなので、機械翻訳のように全部一から生成するのは無駄に見えた)、その時はうまく行かなかったので諦めた記憶があるが、Transformer でやるようになった(BERT や XLNet も登場した)のが大きく違うのかな。ちょっと試すのが早すぎたのかもしれない。

ちなみに F0.5 で評価するような最小限の訂正を行う minimal edits であれば多分このようなアーキテクチャでやるのが一番よく(GEC に限らず入出力でほとんどのトークンが同じようなタスクだと同様)、流暢になるように大きく書き換えるような訂正を行う fluency edits だと GPT のような言語モデルを用いたアーキテクチャでやるのがいい(抽象型要約や対話みたく、入力と出力が結構変わるタスクも同様)と予想しているのだが、これも理念的には正しいが、現在のシステム(データ、モデル、等々)だとうまくいかない系(数年後に複数の技術的要因が解決されて、最終的にうまく行くようになるもの)なのかも、と思ったりはしている。

ともあれ、フォーカスするデータや評価尺度を決めてしっかり開発をする、というのが大事だというメッセージだったように思う(なぜそのデータにするか、なぜその評価尺度にするか、という話はそれとは別にある)。