頑健なバイト単位の NLP

朝5時に起きてメール処理と学会のお仕事。いつもながら、学会の仕事の量を減らしたい。

娘（3歳1ヶ月）が昨日の夜から若干体調が悪く、保育園に行きたくないというので急遽実家で見てもらう。保育園でも目の赤い子がいるので、（軽いウイルス性）結膜炎ではないかと思うのだが……。

朝は日本時間今日締め切りの EMNLP の author response を書く。今回は十分時間があるね、などと話していたのだが、結局当日にずれ込んでしまって申し訳ない。授業があるとなかなか……（しかも中間試験に重なっていた）。

午前中は古典論文紹介。以下の論文を紹介してもらう。

Keselj et al. N-GRAM-BASED AUTHOR PROFILES FOR AUTHORSHIP ATTRIBUTION. PACLING 2003.

バイトベースの n-gram で著者の書いた文書集合と著者不明の文書の類似度を比較し、最近傍の著者だと推定する著者推定手法の提案。実験設定がかなりあやしい（テストセットと開発セットが分かれていないし、著者の数も10人弱と少ない）が、言語に依存せず動作する、というのはいい話（でも2バイトの文字コードにした中国語で trigram や 5-gram が変と言われても、まあそうだよね、としか言いようがない）。

文書分類的なタスクは単語単位や文字単位でなくバイト単位でやると（やっても？）言語依存にならず頑健に動く、という話は10年くらい前に初めて聞いたとき「へー」と思ったものだが、こういう研究もあったのね。今だったら CNN をバイト単位でやったりする、みたいな話になったりするのだろうか？なんか見たことあるなあ、と思ったら以下の論文があった。CNN ではなく LSTM だった。

Gillick et al. Multilingual Language Processing from Bytes. EMNLP 2016.

日本語だと UTF-8 を NFD 正規化したら連濁したりするところが汎化されてよくなったりする、とかあるのだろうか。

個人的にはこういう手法を情報理論的観点から再解釈したりするのが好きなのだが、ちょっと時間をとってお茶でも飲みながら考えないといけないので、最近はなかなか難しいな。

お昼からコース会議。いろいろ案件があってしっかり2時間。来年度は学部再編で自分は情報科学科に所属することになるのだが、教職関係ではかなりエフォートを割いたので、自分が高校訪問で学部再編について説明するときは「教員免許がほしかったら電子情報システム工学科ではなく情報科学科へ」と言いたい ;-)

もちろん、ハードもソフトもやりたいなら電子情報システム工学科に行くといいと思うし、迷ったら電子情報システム工学科に行くといいだろう。最初からプログラミングに興味がある人のみ情報科学科に来るようになるので、来年度以降は受験生の様子が変わるかな、と思っている。

夕方も少し仕事をするが、体調が急速に悪化。自分も何かに感染しているらしい。やばい……。研究室の学生は大丈夫だろうか？