クラウドでアノテーションをする秘訣

午前中は NAACL 2019 読み会。3本紹介してもらったが、一番おもしろかったのはこちら。

  • Mohammad-Ali Yaghoub-Zadeh-Fard, Boualem Benatallah, Moshe Chai Barukh, Shayan Zamanirad. A Study of Incorrect Paraphrases in Crowdsourced User Utterances. NAACL HLT 2019.

これはクラウドソーシングで対話に関する言い換えを集めたのだが、どういうようなデータが取れるのか(どういうスパムが出てくるかとか、どういう誤解が生じるとか)、というのを丁寧に分析していて、なるほどね~という感じである。我々も今年から Amazon Mechanical Turk を使い始めて、Lancers と違って確かに質のコントロールが難しいというのが分かり、大変参考になった。

お昼休み明けにはインダストリアルアート学科の教授と話し合い。他学科のことはよく分からない、というのは仕方ないのだが、「えー」と思うような発言もあり、結局次は学部長と話し合うことになる。教授の立場の人が皆こういう意見だと、准教授以下の人はどうしようもない気がする(そのような意見にならざるを得ない、あるいは思うことがあっても立場上言えないというのは分かるのだけど)。

午後は B3 の研究の打ち合わせ。今年度は研究がやりたいという B3 が何人かいるので、結局9月からスタートすることになった。これまでも何回か「夏休みに研究したい?」と聞いたことがあるのだが、1回も研究したいというグループが出なかった(グループの中で1人だけ「やりたい」という人がいたことはあるが、1人だけだと効率を考えるとやりにくい)ので、最近は聞かなくなってしまっていたのだが……

夕方は機械翻訳グループの進捗報告。ニューラルの世界になってからしばらく経ち、少しずつうちの研究室から世に出る研究も増えてきたが、機械翻訳界隈の流れがちょっと早すぎて、あまり学生向きではない気がしている。1年でベースラインが変わっていて全部の実験がやり直しになったりするのだが、これはそこそこ手が動く人でないと、必死に頑張ってもベースラインに追いつくだけで、いつまで経っても自分の提案手法にたどり着けないのである。(ニューラル以前と比べると、機械翻訳の研究に必要とされる実装力は大幅に下がったと思うのだが、それにしても。)