午前中は昨日に引き続き教室を予約して論文紹介を聞く。横長の教室は授業で使われていることが多いので、なかなか取れないという問題がある。今日は以下の論文を紹介してもらう(スライド)。
- Jiaqi Mu, Pramod Viswanath. All-but-the-Top: Simple and Effective Postprocessing for Word Representations. ICLR 2018.
これ、いくつかの単語分散表現がどういう特徴を持っているかということを示した上で、その特徴が実は問題であることを議論し、その特徴を減らす後処理(データの平均化と主成分分析)を提案する、という話。実用的にはシンプルかつ性能もよく、使い勝手はよいと思う。Isotropy (等方性)という概念がどこまで本質的か、ということについてもう少し考えてみたい。
だいぶ前にチラ見して「データの平均化ってハブの問題を解決するためにやっている処理と同じでは」と思ったのだが、実はこの論文はそれ以外にも色々議論していて「なるほど」と思う点も多い。しかし arXiv バージョンの共著者に知り合いがいたので「ハブネスに関する一連の研究と同じ処理をしているようだが、どうなの」とメールしたら、ICLR 版の著者から消えてしまっていたので(論文の中にはハブネスとの関連性の言及は特にない)、何かあったんだろうか。
お昼からサーバの設置……のはずだったのだが、サーバ室に行ってみたら「電源足りないので電源入れてはいけません」と言われ、何を言われているのか理解不能であった。そもそも電源が足りるから設置に立ち会うので来てください、と言われたのに、電源足りないなら対面でやる必要ないんでは?(そもそも必要な電力がどれくらいか、というのはすでに3回は伝えているし。)買ってもいいと言われて去年の8月に購入したサーバがまだ設置できないというのも異常(完全に遊んでいる)。どれだけ待たせるつもりなんだ……。(電力の総量が問題なら1台止めて1台入れ替えてもいい、と申し出ているのだが、それもダメという意味が分からない)
夕方は読売新聞の電話取材。今度は生活面ということでだいぶ雰囲気は違ったが、技術的に誤解はされていないようなので、やはり読売新聞の方々はよく分かってらっしゃる(記事のストーリーが先にあるので、こちらの書いてほしいように書いてくれる訳ではないが、こちらが書かないでほしいようには書かないでいてくれる)。朝日新聞やテレビ朝日の方々も話が通じるし、ちゃんと分かってらっしゃるメディアの方々も多いなと最近思っている。
あと夜に社会人博士の方々のミーティング。教授会等のタイミングと合わせて、隔週だが、隔週くらいだといろいろ話すことがある。ただ、隔週だと前回の内容を忘れていることが多いので、少し情報共有のやり方を考えた方がいいかもしれない(レギュラーの進捗報告は毎週しているので週ごとにメモを共有しているが、地層形式で全てを一つのメモにするとか?)。