離散的入出力を考える

人工知能学会主催の人工知能セミナー「画像・音声・テキスト処理における Generative Adversarial Network (GAN) の応用」に参加するために早稲田へ。高田馬場駅から歩いていけるので大変楽である。

実は自分は言語処理における GAN にそこまで詳しいというわけではないのだが、日本の自然言語処理分野で GAN を研究に使っている人がそもそもそんなに多くないので、声がかかったようである(うちからはまだ GAN を使った研究で1本も国際会議に論文を通していないし、そもそも投稿すらしていない)。というわけで、自分はというと金子さんの画像・音声の話と牛久さんの動画の話を聞いて GAN の勉強をしたい、くらいの気持ちで参加したのである。

自分のスライドは言語処理における GAN の展開にて公開しているが、結局言語処理(ニューラル言語生成)で問題なのは離散的な記号を1単語ずつ生成するという部分で、これが連続的な入出力の画像や音声と違うところだ、ということが、資料を作っていて分かったことである。金子さんと牛久さんのお話はいずれもデモがあったり解説がすごく分かりやすかったり、大変参考になった。

自分の番になって周りを見渡すと、参加している人の1/3くらいは大学教員(教授・准教授クラス)ではないかと見え、これは少し想定と違うと思ったり(汗)いまは流行りの深層学習のセミナーなので、企業の人が殺到してすぐ埋まってしまうのでは? と思っていたが、ガチの研究者の方々がメインだった。ちょっと説明を少なめにした部分があってトークが予想より少し(10分弱)早く終わったが、QA がそのぶんかなりたくさんあって、鋭い質問もあってタジタジに。QA のあと、言語だと音声と違って可視化したりしやすいのでは? というような質問をしていただいた方、どなたかと思っていたが、名刺を渡しに来ていただいて奥乃先生であったことが分かった(汗)奥乃先生も(あと HRI の中野さんも)実は東大の教養学部の基礎科学科出身だそうで、自分の先輩筋に当たる人だということを教えていただいた。世界は狭いものである。

帰りは牛久さんたちと GAN の話をしつつ、自然言語処理と画像処理のコミュニティの違いについて雑談しながら帰る。自然言語処理は学際的な分野で、自分のように人文系出身の人もいる、というのが雰囲気の違いに出てくるのかなぁ(少なくともガチ工学ではない)。言語処理でなかったら、自分は情報系の専門には変わっていなかっただろうし……。