Confidence-Weighted Linear Classification を読む

  • Mark Dredze, Koby Crammer, Fernando Pereira. Confidence-Weighted Linear Classification. International Conference on Machine Learning (ICML), 2008.

を読んだ。これは id:tkng さんがConfidence Weighted Linear Classificationを読んだでも2年前に紹介しているし、先日 @hillbig くんが言語処理学会のチュートリアルで話した「超高速テキスト処理のためのアルゴリズムとデータ構造」の中でも紹介されているものである(リンク先にチュートリアル資料の PDF がある)。

これ自体は前に読んだ記憶があるのだが、再度読んでみて気がつくこともある。内容自体は id:tkng さんがまとめられているものそのままであるが、これ論文がすごくうまく書かれている。この書き方は参考にしたいものである(ページ数制限でいろいろと苦労したと思われる箇所が何カ所もあるが……)。

性能については Classifier performance: alternative metrics of success でも取り上げられているが、SVM とかパーセプトロンとか MIRA とか全部捨てて Confidence Weighted (もしくはその後継)にしましょう、と言いたくなる気持ちも分かる。

しかしこういう結果を出すとき、「パラメータはデフォルト値を使いました」とするか「パラメータは最適なパラメータを選びました」とするか「信頼水準95で信頼区間はこんな感じです」と出すか、どれが一番よいのだろうか。「後に続く人が同じ失敗をしないように」という意味では信頼区間を表示するのが一番親切か。SVM なんかではかなりパラメータ次第で性能が変化してしまうのだが、あまりチューニングしないで使っている人が多い気もする。パラメータをどう変えてもあまり性能が変化しない分類器のほうが、分類器自体の性能を云々したい研究でなければ適切であろう。

現実的には確かに Confidence Weighted は(oll の実装を使ったことがある)1回でかなり収束するし、使いやすいアルゴリズムじゃないかなーと思うのであった。(他のオンライン学習アルゴリズムは何回か回さないといけなかったりちゃんとシャッフルしないといけなかったり、いろいろバッチ学習アルゴリズムと比較して違うところもあるので、最初少しだけはまりそう)