〆切が2回以上延びるとやる気を削がれる

朝6時半に起き、朝風呂。[twitter:@chokkanorg] さんと一緒になる。そういえば去年奈良で旅館に泊まったときも一緒にお風呂に入ったし、お風呂で話している時間けっこう長いかも。風呂NLP。もう助教もそろそろ3年目だし……という話をすると、「学生を集めるだけ集めておいてそれでいいんですか」と言われたが、自分は (NAIST にはたくさんの学生に来てほしいと思っていても、松本研には) 集めてないので大丈夫!o(*゜▽゜*)o ←最近気に入っていてよく使っている顔文字

朝メールを見ると、さらに2件 COLING 関係のメールが来ていたので、コメントを入れたり返信を書いたり (例のごとく iPhone で。)。国際会議の論文は、基本的に〆切まで何度投稿しても大丈夫なので (最後に投稿されたバージョンで査読される)、直接一緒に研究している学生の人たちには、〆切の数日前までには一応査読されても大丈夫なバージョンを投稿しておくように伝えているのだが (明示的に「とりあえずこのコメントを反映したバージョンを投稿しておいてください」などと伝える)、ギリギリまで投稿可能なバージョンができないのはけっこう大変。

どういう分野を選択して投稿するかとか、初めての投稿だと意外に1-2時間かかったりするし、一度投稿しておくと、突然交通事故に遭っても一応投稿されているバージョンはあるし、原稿が投稿できなかったということがなくなるので、そこからあとは純粋に原稿のクオリティを上げる方向に時間が使えるようになるのである。

最先端NLP勉強会 のほうは、昨日いちばん遅かった組は3時半まで飲んでいたとのことだが、発表はみなさん熱が入っていた。個人的には [twitter:@ytk_5] さんが紹介された

  • Rada Mhalcea and Carlo Strapparava. Lyrics, Music, and Emotions. EMNLP 2012.

がおもしろかった (彼女のスライドがすっきりしていて分かりやすかった、というのも関係あるかもしれないが)。これまでは曲ごとに感情推定するようなものはあったが、歌の1フレーズごとに感情推定するという新しいタスクの話。例のごとく Amazon Mechanical Turk でデータを作り、線形回帰で解くという感じで、手法的に目新しいところは全然ないのだが、切り口がおもしろい。出だしは悲しいが最後は楽しくなってすっきり終わる歌とか、ヒットチャートの常連になる歌の感情のパターンとか、そういうのが分かるようになるということで (笑) 個人的には、人手でつけた感情も、推定された感情も、両方けっこう精度が高いなという印象なのだが、やはり音による情報がかなり感情推定に関係しているのだろうか。テキストだけから独立な6感情をそれぞれ10段階の尺度で付与するというのは、かなり負荷が高いような気がするのだ。

お昼ご飯の前、[twitter:@y_hashimoto423] さんと [twitter:@cacaho] さんと日本語の述語項構造解析の話をする。日本で述語項構造解析の研究をやる博士課程の学生はみんな相当苦労する、という話が出たが、確かにそうかもしれない (修士で就職するつもりの人は手を出さない方がいい、という話も)。[twitter:@Yucchiiro] さんも話に加わり、NAIST テキストコーパスでも BCCWJ でもいいので、Penn Treebank と同様に、ここからここまでを評価データに使い、ここからここまでを訓練データに使う、と決めてしまい、評価データは何人もの人で何回もチェックし、そこだけは正しいデータにするべきでは? という話があり、それもごもっともだと思う。いま BCCWJ の述語項構造はお1人につけてもらっているのだが、なんとかならないかなぁ、これ。

お昼ご飯を食べたあとみんなでバスに乗って仙台駅まで移動。自分は COLING の最後の追い込みのために到着後仙台観光組とすぐ別れ、ホテルに向かったのだが、ホテルが15時からチェックイン (〆切は15:59) らしく、喫茶店に避難。添削していると、〆切がさらに12時間延びているらしいという情報を得たが、もういまさらこれから12時間はがんばれないので、15時過ぎにはみなさんにお疲れさまメッセージを送る。本来の (なにが本来か分からないが) 〆切間際に出した人は、1,000番を超えているらしい。今年最後の大きな会議だったせいもあるが、会議の採択率の COLING のところを見ると

Year Submitted Accepted Rate
1998 550 137 25%
2000 323 110 34%
2006 630 147 23%
2008 600 145 24%
2010 815 334 41%

となっていて、2012年がやけに多いことが分かる。投稿が1,000件以上あると、さすがに40%近い採択率は無理じゃなかろうか? (確か2010年はポスターの採択率が高かったのではなかったかと思うが、今年は口頭発表がフルペーパー、ポスターはショートペーパーに分かれているので、フルペーパーはかなりの難関ではないかと思われる)

他のみなさんも、お疲れさまでした! (いろいろな意味で……)