査読(peer-review)と研究者コミュニティ

NAACL-HLT 2009 という自然言語処理に関する国際会議(North American、つまり北米の研究者コミュニティがメインなので、この業界で3番目くらいに巨大な会議なのだが)のプログラム委員になっているので、人生初めての査読をしている。これまで国際会議や論文誌に投稿して査読を受けることはあっても、自分が査読することはなかったので、なかなか勉強になる。

査読というのは基本的に同業者の書いた論文は同業者がいちばん適切に評価できるという原則で行われているもので、誰かの書いた論文を同じ研究コミュニティの中の他の誰か(投稿者と利害関係がない人が望ましい)が評価するというもの。学会によってやり方に細かい違いはあると思うが、たとえばいま査読している国際会議では

  • Appropriateness: 1-5
  • Clarity: 1-5
  • Originality / Innovativeness: 1-5
  • Soundness / Correctness: 1-5
  • Meaningful Comparison: 1-5
  • Thoroughness: 1-5
  • Impact of Ideas or Results: 1-5
  • Impact of Resources: 1-5 if any
  • Recommendation: 1-5
  • Reviewer Confidence: 1-5
  • Audience
  • Presentation Format: poster or oral or both
  • Resubmission as short paper: recommended or not recommended

という項目について評価し、コメントを添えて返信する。コメントの分量は人それぞれ、国際会議それぞれではあるが、権威のあるとされる国際会議のほうがコメントの分量は長い傾向がある(印刷して2ページ分になるくらいもらったこともあれば、2行しかくれなかったこともある)。また、査読者の名前や著者の名前は(公正のため)お互い知らされないことが多い(著者の名前が分からないのは blind review という)。また、査読者も1人だと公平な評価ができないので、2人以上つくことが多い(2人の場合、意見が2人で一致しなかったら3人目が読む、といった具合)。査読があると言っても1人の査読者しかいなかったり、もしくは投稿者の身元が分かったまま査読したりするのは、適正な査読システムとは言い難い(ないよりはましだが)。名のある国際会議や論文誌はさすがにそういうことはしていないが、複数人による査読と blind review は論文の質を保つために必須だと思う。

上記の項目の中でももっとも重要なのは recommendation つまりいったい全体その論文オススメですか? という項目で、これが平均して3.5以上あると大体 OK (ポスターまたは口頭発表)で、それ以下だと厳しい、みたいな感じ。つまり少なくとも一人の査読者には「少なくとも平均以上にはおもしろい」と思ってもらえないといくらがんばってもダメなわけで、けっこう大変。

ここまでは論文投稿側でも分かることだが、ここからが査読者になって初めて知ったことで、現在自然言語処理の国際会議の査読システムで広く使われている Softconf というサイト(システム名は START)では、まず area chair (たとえば機械学習)がプログラム委員(査読)を引き受けてくれそうな人数十人に声をかけ、OK もらった人に〆切後適切な内容と数の論文をプログラム委員に振り分ける、という感じになっている。振り分けられた委員は期限までに論文を読んで上記の評価項目の点数を付け、コメントを書き込んで返信する。自分の評価が終わった論文に関しては、他の査読者が誰で、それぞれの項目に何点をつけて、どんなコメントを書き込んだのか見ることができる。

全く同じ論文を見て違うところに着目してコメント書いていたり、もしくは他の人も同じく疑問に思っているんだなぁというところが分かったりするのが非常に勉強になる。3人いて3人とも突っ込んでいるところはやっぱり書いた人の書き方が悪かったんだろう。評価も自分の評価は他の人と比べてそんな外していない(というかほとんど同じ)のを見ると、それなりに他人の仕事も評価できるようになってきたのかもしれない。(最初「機械学習」分野のプログラム委員と聞いてちょっとびびっていたのだが、来た論文は分布類似度とか知識獲得とかの論文だったので安心した。自分の研究分野選んで論文渡してくれたのだろう。)

こういう体験、研究室でも導入したほうがいいと思うのだが、今のところ勉強会や研究会で自分や他の人が質問 and/or コメントするのを聞くくらいしか「自分の着眼点・コメントが間違っていない」「発表者にとって有益なことを言っている」というのを(間接的にしか)知る手段がないのかなぁ。たとえば CICP (NAIST の学内プロジェクト実習) は結局プロジェクトの採否は先生方が決めるわけだが、そういうのも含めて学生相互でやらせる(まあ自分が査読付きのなにかに投稿した経験がないと他人の査読もできないだろうが)とか、ないかなぁ。