変数に多重共線性がある

午前中は国語研に行き、科研のミーティング。日本語学習者の書いた作文から、ライティング能力を推定する、という共同研究をしているのである(4年のプロジェクトで、現在3年目)。

ライティング能力の推定、自分としては予測モデルとしてどれくらい推定できるかということに興味があるのだが、線形式のほうが理解しやすいだろうな。多重共線性はとりあえず正則化してしまえばあまり気にしなくていいんだろうか?

アノテータ間の一致率が低いという問題がどうもあるようで、いろいろ思うところはあるのだが、工学的な立場とそうでない立場で、かなりアプローチが違うように感じる。正則化どころか正規化すら、してはいけないような……。アノテーションの議論自身はとても興味深いもので、できたデータに意味はあるのだと思うのだが、なんかこれで「機械の精度が悪い」と言われても無理があるのではないかと……(専門家同士の間で、最低の一致率の人の精度よりは高い)。

午後は書類提出のために職場に出勤。正本1部、コピーを6部出すような書類を書いたのは久しぶりである。これ、うまくいくといいのだけどな〜。