タグ付けを依頼するのも気をつける

今日は娘が保育園の遠足なので、早朝からお弁当の準備。といっても妻が下ごしらえをしてくれているので、最後火を通したり詰めたりするだけであるが。

朝は Skype ミーティングである。いろいろ近況を聞いたりする。オープンアクセスのジャーナルの話になったが、最近はあやしいジャーナルも多く、査読ありと言いながら形だけの査読だったり(査読期間がやたら短いとか)、掲載料で儲けるビジネスモデルなのだろうが、ちゃんと専門家が複数人で査読している論文誌でないと、質を保つことができないのではないか、と思う。(もちろん質は読む人が判断すべき、という立場もあるだろうが、それならわざわざ悪徳業者をりするこういをせず、arXiv のように無料で公開できるところで公開すればいいのではないか、と思うのだ)

午前中は共同研究のミーティング。最近研究室内でやっているタグ付けの話をする。タグ付けされた結果もさることながら、タグ付けの方法自体に興味を持っていただいたようだが、確かにこういうデータ作成のノウハウはなかなか本にも論文にも書いてあるものではないので、お役に立てたようでよかった。

自分は NAIST 松本研にいたからこそこういうタグ付けの方法論を教わったが、自然言語処理の研究室でもほとんどの研究室ではこういうノウハウがなく、卒論や修論で闇雲にタグ付けして再利用できないデータが再生産されているのではないか、と懸念する(先輩から引き継いだ、というか教員から渡されたデータを使って実験したりしても、元々のデータがあやしいのでちゃんとした研究にならない、みたいな)。

コロナ社の言語処理シリーズでもアノテーションの方法論について誰か書いてくれるといいのに、と編集の方にときどきお話ししているのだが、想定読者が少なすぎるのか(確かにマニアックなテーマで、ほとんどの人はデータを作る側ではなく使う側)、引き受け手がいないのか、まだ動きが見えないようである。

午後は勉強会が2つ。SLP(自然言語処理の教科書)は対話の章。いろいろと知らないので勉強になる。その一方、新入生は突然こんな話を聞いても意味が分からないのではないか、という気もする。PRMLパターン認識機械学習)はベイズ推定について。こちらも意味わからないんじゃないかなぁと思わなくもないが、あとで分かることがあるので、門前の小僧状態で聞いてくれれば……。