研究の時間をなんとかひねり出す

午前中は最先端論文紹介で以下の論文を紹介してもらう。

  • Aleksandra Piktus, Necati Bora Edizel, Piotr Bojanowski, Edouard Grave, Rui Ferreira, Fabrizio Silvestri. Misspelling Oblivious Word Embeddings. NAACL 2019.

これはスペリング誤りが含まれている単語の分散表現を学習するという話で、問題の定式化から解き方まで割とスタンダードで、書き方がよい論文。実験結果の見せ方も、(多分実験しているのだろうけど)うまく行かなさそうなケースは書いてなかったりして、ある意味うまく書いている気がする。こういう内容でフルペーパーを書き切ることができれば、うちの研究室でももっと論文を量産できる気がするのだが、何をどうすればそういう感じになれるのかなぁ。

お昼は受験希望者とランチ。今年度は(昨年度から)情報科学に関して過熱気味で、大学院入試の難易度もうなぎ登りなのだが、やはり言語に興味のある人が入ってきてくれると嬉しいなぁと再確認したりする。自分自身、言語に興味があったので大学院は NAIST に進学したわけで、言語そのものに興味がある人を受け入れていきたいと思うのである。

@murawaki さんのメンテナンスされている日本所属の言語処理トップカンファレンス論文 (2019年)が更新されていて、うち(首都大)は現時点で(東大、京大、NICT、理研に続く)暫定5位であった (大学内では、NAIST、東工大、東北大を抜き、3位。まあ、これはタイミング的にたまたまであろうが)。毎度のことながら、Student Research Workshop が多い、国際共同研究が少ないという点はあるものの、かけている研究費(スタッフ数)の割には成果を挙げていると思っている。

まあ、うちは理研 AIP のリサーチアシスタント等で学生にお給料を出したりはできない(うちの博士後期課程の学生で、お願いして直接雇用していただいている人はいるが、自分は関わっていない)し、巨大な研究費を獲得して研究員を雇ったり潤沢な計算機資源を揃えたりはできないが、研究費獲得に使うエフォートを研究に回しているので、その分相対的に論文として世の中に出せている(学生にお金をあげることはできないが、対外発表という形での業績や実力をつけて送り出すことはできる)、ということである。研究費の申請には論文誌1本(トップカンファレンスのフルペーパー1本)分くらいのエフォートが必要であると言われているが、それを放棄することで自分の研究に回す時間を捻出しているので……(お金をもらったらもらったで、それに伴う書類仕事も増えるし、現在のライフスタイル的にはそういう時間は負担したくない)。

ちなみに、東大は自然言語処理の研究室が5-6個くらいあるし、京大も同じく2-3個あるので、数では敵うべくもないのであるが、そこそこ数を出さないと質も上がらないので、そろそろ質で勝負していきたい(来年度以降は NAIST 松本研に進学していた層の一部がうちに来るかなと思っているので、博士後期課程まで進学してくれるなら、十分おもしろい研究ができそう)。

あと、上記のリストにはまだ含まれていないが、自然言語処理のトップカンファレンス ACL およびそれと連続開催されるワークショップにて、以下の発表が採択されている。こうやって見ると、国際会議で発表しているのは言語学習関係の研究が多いのであるが、最近は機械翻訳関係の研究も増えてきていて、少しずつ研究の幅も広げていきたい。

  • Masahiro Kaneko and Danushka Bollegala. Gender-preserving Debiasing for Pre-trained Word Embeddings. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019). July, 2019. (full paper)
  • Mio Arai, Tomonori Kodaira and Mamoru Komachi. Sakura: Large-scale Incorrect Example Retrieval System for Learners of Japanese as a Second Language. In The 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019): System Demonstrations. July, 2019.
  • Kengo Hotate, Masahiro Kaneko, Satoru Katsumata and Mamoru Komachi. Controlling Grammatical Error Correction Using Word Edit Rate. In The 2019 ACL Student Research Workshop (SRW). July, 2019.
  • Mio Arai, Masahiro Kaneko and Mamoru Komachi. Grammatical-Error-Aware Incorrect Example Retrieval System for Learners of Japanese as a Second Language. In 14th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 14). August 2, 2019. (full paper)
  • Satoru Katsumata and Mamoru Komachi. (Almost) Unsupervised Grammatical Error Correction using Synthetic Comparable Corpus. In 14th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 14): Shared Task. August 2, 2019.
  • Masahiro Kaneko, Kengo Hotate, Satoru Katsumata and Mamoru Komachi. TMU Transformer System Using BERT for Re-ranking at BEA 2019 Grammatical Error Correction on Restricted Track. In 14th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 14): Shared Task. August 2, 2019.
  • Ryoma Yoshimura, Hiroki Shimanaka, Yukio Matsumura, Hayahide Yamagishi, Mamoru Komachi. Filtering Pseudo-References by Paraphrasing for Automatic Evaluation of Machine Translation. In Fourth Conference on Machine Translation (WMT19) Shared Task: Metrics. August 1-2, 2019.

午後は機械翻訳グループの進捗報告を聞いて NL 研(情報処理学会自然言語処理研究会)の発表練習をする。その後、メール処理をしてから国際会議の投稿原稿の添削。夏休み~秋くらいまでの時期を除くと、ずっと何か原稿を見ている気がするが、大学における仕事の1/3はこういうものなので、ちゃんと発表できる内容があるというのは幸いなことである(学生が頑張ってコツコツと実験をしたりしてくれているおかげ)。