自らで書いていないと分からない

午前7時から断続的に入力メソッドワークショップ2019の準備。もう11回目ということが驚きなのだが、自分が東京に来てから東京開催と京都開催を交互にやるスタイルになっていて、今年は京都開催の年なのだが、下の子が生まれたばかりで参加するのは難しいのでリモート参加にさせてもらったのであった。

自分はトップバッターでニューラル入力メソッドのサーベイについて報告。30分の枠だったが、ワークショップの設立経緯など話していたら1時間ほど使ってしまった(汗)資料はワークショップ参加者には送付したが、言及した論文だけ挙げておくと以下のような感じ(このうち、5-8を詳しく紹介)。

  1. Jia and Zhao. A Joint Graph Model for Pinyin-to-Chinese Conversion with Typo Correction (ACL 2014 Long)
  2. Dai et al. WINGS: Writing with Intelligent Guidance and Suggestions (ACL 2014 Demo)
  3. Chen et al. Neural Network Language Model for Chinese Pinyin Input Method Engine (PACLIC 2015)
  4. Takahashi and Mori. Keyboard Logs as Natural Annotations for Word Segmentation (EMNLP 2015 Long)
  5. Huang et al. Moon IME: Neural-based Chinese Pinyin Aided Input Method with Customizable Association (ACL 2018 Demo)
  6. Huang and Zhao. Chinese Pinyin Aided IME, Input What You Have Not Keystroked Yet (EMNLP 2018 Short)
  7. Zhang et al. Open Vocabulary Learning for Neural Chinese Pinyin IME (ACL 2019 Long)
  8. Yao et al. Enabling Real-time Neural IME with Incremental Vocabulary Selection (NAACL 2019 Industry)

質疑応答では Yao et al. (2019) に質疑が集中したのだが(これ、関係者どなたかに声をかけて1人でも参加していただければよかったような気がするが)、これでそんなに高速化するの(他の手法との比較の実験はしていないの)? というコメントがあり、質疑応答の時間ではうまく答えられなかったので、申し訳ない。結局 NCE かけて自己正規化して学習は速くなると思うのだが推論するときもそんなに差があるのかよく分からず、こういうところで普段実験しているかどうかの経験不足がネックになるなと思ったりする(ここ見ると 論文中で比較されている D-softmax だけが推論時にも使えると書いてあるが)。ここに書いておくと詳しい人が補足してくれるかなと淡い期待。

自分のセッションのあとは話を聞きたかったが Macbook Air のバッテリー切れもあり、1時間半ほどで離脱。来年はリモートでも参加できなさそうなので、来年の開催もお願いしたところ、来年も京都開催になるらしい。2020のページもすでに作ったので、参加予定の人は日程の確保とご登録を~(来年はプログラム編成の仕事もしない予定なので、発表希望の方はメーリングリストまたは森さんまでご連絡を)。