訓練に10年かかる GPT

今日は祝日授業日なので、出勤はしないが午前中はオンライン授業。

大学院向けの自然言語処理の授業、ようやく機械翻訳について話したいことは全部話せた。しかしここ数年の進展と最先端の内容をちゃんと話そうとすると難しい。エンコーダ・デコーダモデルから RNN に対するアテンションの導入までで一区切りかと思いきや、そのあと Transformer の話があったりして……。ただ、多分来年からさ来年くらいには、割とニューラルの内容も（理由はともかくこうすればいい、というのは）落ち着いて話せるのではないかと思っている。

来週は最終回なのだが、GPT-3 について話してほしいというリクエストがあったので、何を話そうか考えている。このブログが日本では最近話題になっていたが、論文自体は1ヶ月以上前に出たもので、API が公開されて実際に遊べるようになったので、注目されている、という流れである。

手法的には特に GPT-3 は GPT-2 と違うものではなく、パラメータが非常に大きくなっていて、ものすごく計算コストがかかっている。試行錯誤の時間を考えず、最終的なモデルを生成するだけの計算コストだけを見積もったとしても、Tesla V100 8枚だと10年かかり、現在の GPU 環境で訓練しようと思うと10億円以上かかるようだ（うちの研究室だと1つの実験で使う GPU は1枚なので、100年かかるだろう）。別の推定だと、訓練に5億円、1 GPU だと300年らしいが、まあオーダーは変わらない。それを見て同じことをしたいとは普通は思わないだろうし、ここまで時間をかけて学習してもモデルにバイアスがかかってしまうことは避けられないようだし、こういうことが可能だということを示した貢献は大きいと思うが、学習したモデルをいかに活用するか、何が学習されているか、ということがここからスタートするのではないかな（BERT がそうであったように）。

umm. GPT3’s cost is 12M$ only if you consider only the compute cost of a single final run, +don't count the personel costs of an 18 months project with 31 authors.
— (((ل()(ل() 'yoav)))) (@yoavgo) May 30, 2020

ちなみに BERT は人文系の人にはあまりおもしろくないモデルだと思うが、GPT-3 は（自然言語による試行錯誤で挙動を制御できるので）人文系の人も色々遊べるモデルになっているのでは、という気がしている。