人間のように振る舞うとは何か

午前中、arXiv に投稿してみたが、参考文献が勝手にハイパーリンクになって改行がぐちゃぐちゃになってしまい、オフにする方法を調べる必要があってはまった。正しくは FAQ に書いてあるように 00README.XXX というファイルを作成して nohypertex と書いておく、という必要があった。

月曜日は進捗報告の日なので、午前中と午後合わせて3.5時間ミーティング。以前は Google Meet で無限に録画できるので録画していたが、最近は進捗報告は録画しないことにした(論文紹介と研究会のみ録画し、基礎勉強会は TA に任せることにした)ら、少し精神的な負担が減った。録画しておけば、後から字幕を付けたりもできるのだが、毎回最初に忘れずオンにする、というのが負担なのである(Zoom のように自動でオンになってくれればいいのだが)。

夕方は津田塾の非常勤で自然言語処理の授業。今回は正しい開始時間を知っていたので、スムーズにできてよかった。日曜日、たまたま情熱大陸で 3D CG アーティストの TELYUKA さんたちによる女子高生 CG の Saya の特集がやっていたので、これをみんなに見てもらったりする(5/31の22:59までは無料で見られる)。

Saya は画像を見ると本物かと間違えそうなクオリティの CG なのだが、これは人手でとんでもなく地道な作業の繰り返しで作られている、ということが分かって良い。あと、画像はあえてノイズを入れる(「尖らせる」と言っていた気がする)ことで「人間らしさ」を入れて果てしない微調整をしているようだが、今回は Saya に音声対話できるようにする、という話で、音声についてはそのようなものすごく繊細な調整をしていないので、まあよくあるような合成音声になっている。ボーカロイドみたく、合成音声であること自体を楽しむ、みたいな設定ならいいのだが、人間っぽい、というところをウリにする場合は、もっと細かくあえて平均からランダムに外しまくる調整をしまくらないといけないのだろうな、と思う(「AI ひばり」のときも思ったが)。

自分は言語の人間なので、言語生成でその人らしさを出すというのはどうすればいいか、みたいなことを考えるのだが、画像や音声のように連続的な世界と違い、言語は離散的な記号の世界なので、なかなか本人っぽいノイズを入れるのは難しそうだなと思ったりする。でも、画像や音声と違うから深層学習はうまく行かないんじゃなかろうか、と予想していたのも覆された訳で、本当はやり方さえ誰かが見つければできるのかもしれない。単語自体を他の単語に変えたりするようなノイズではなく、分散表現にガウスノイズを入れる方がノイズの入れ方としていい、という話はどこかで見かけた気がするが、いま自己教師あり学習で深層言語表現モデルを学習するときは単語そのものをマスクしたり順番を入れ替えたりしているので、データをたくさん集めたら離散的な記号も連続的に扱うことができるということなのかもしれない(サンプリング定理みたいなのが言語でも見つかったりするとおもしろそう)。