タイトルと名前の部分文字列に

今日は在宅勤務日。

午前中は EMNLP 2020 読み会。90分で3人の予定でアサインしているが、毎回120分やっているので、次回からは時間を修正予定。今回紹介してもらった中では以下がおもしろかった。

  • Hofmann et al. DagoBERT: Generating Derivational Morphology with a Pretrained Language Model. EMNLP 2020.

これは形態素を BERT で生成する、という話で、どんな接辞が文脈から生成できるか、というのを色々実験しているようである。complex と言っている割には複数の接尾辞が複合するようなのは対象外になっていたり、ツッコミどころはあるのだが、どこまでが単語の外の文脈で扱える部分で、どこまでが単語の中の語構成で扱える部分か、というのは昔から興味のあるところなので、楽しめた。これが実際の解析にも役に立つと言うことなしなのであるが……。

ちなみにこの論文のタイトルの DagoBERT というのは人名らしく、著書の1人も名前に BERT という部分文字列が入っているようだ。自分の名前の部分文字列としてありそうなのは Mach だが、Mach カーネルの Mach(マーク)くらいか。

昼からは NLP 応用グループのミーティング。私用でいつもの半分の時間しかできなかったが、手短に報告を済ませてくれたり、あるいは〆切の近い部分に限って報告してくれたりしたので助かった。

午後は娘たちを迎えに行って予防接種。上の子はインフルエンザの1回目、下の子はインフルエンザの1回目に加えてヒブと肺炎球菌。本当は今日は小学校の就学前健康診断の日だったのだが、予防接種の予約を9月の時点で入れていて、健康診断の日を後から知って変更するとまた予防接種が1ヶ月以上待ちになると困るので、予防接種を優先したのである(妻が仕事の日でなければ、二手に分かれて連れて行けたのだが、妻の出勤日なので仕方ない)。