現実はバッドデータが9割

午前中は大学に来てメール処理。忘年会の予定をfixしたり(しかしその後さらに追加の連絡が……)。

お昼から渋谷に移動し、研究の打ち合わせ。どうしても大学での授業や研究室のことが頭から離れないのだけど、いいのか悪いのか分からない。こういうときってよかれと思っていろいろ動いても空回りしがちなので、適当な感じで力を抜きたいものである。自分の経験上、1年目は試行錯誤して失敗して、2年目に強弱つけるところが分かってきて、3年目で一つの完成を見て、4年目以降は前年の繰り返しでOK、というパターンなので、とりあえず今年は新しいことにチャレンジしてみる時期である。

そういえば、NAISTや松本研のことはこの10年で片手で数えるくらいしか夢に見ていない(というか、そもそもほとんど夢を見なかった)のだが、首都大やうちの研究室のことはこの夏から週に1-2回夢に見ている。思い詰めるということではないのだが、移動中もずっと大学でのことを考えていたりするので、夢に見やすいのかもしれない。(一番焦ったのは、翌日の授業の準備をしないといけないのにできていなくて、残りの時間では絶対準備が終わらない、という夢で、目が覚めたとき、夢でよかったと心底思った)

渋谷は平日なのに人がたくさんいて疲れるな〜。やっぱり日野キャンパスくらい閑散としているのが落ち着く。これからも知る人ぞ知る、という形でひっそりとやっていきたい。

行き帰りで、先日発売された「バッドデータハンドブック」を読む。

バッドデータハンドブック ―データにまつわる問題への19の処方箋

バッドデータハンドブック ―データにまつわる問題への19の処方箋

データの性質も知らずに解析しても意味ありませんよ、前処理や後処理をちゃんとやりましょうね、新しい技術に手を出す前にしっかり基礎を押さえましょうね、という感じで、割とよい本だと思う。たとえば12章「ファイルにこだわる」がおもしろかった。修士論文を書くときにいろんな技術を試したくて「クール」と思われる JSONCouchDB にデータを保存して MapReduce で処理しようとしたが、結局テキスト形式で保存して普通に NLTK で自然言語処理すればよかった、というお話なのだが、これは「修士論文あるある」物語である。

ただ翻訳がちょっとあんまりな気がする。自然言語処理のことを「自然言語プログラミング(NLP)」と書いたりしていて、がっかりするレベル。また、1章ごとに独立してそれぞれ違う著者が書いているので、クオリティに大きな差があったり、使われている言語が Perl だったり Python だったり シェルスクリプトだったり統一感がなく、内容的には初学者が読むとよいのにエッセイの配置が初学者向けではない、という問題点もあるが……。

あと、2014年はスモールデータ元年にという記事を読む。これは前から自分が言っていることと同じで、ほとんどの場合大規模データを最初から使うのは得策ではないし、ビッグデータ解析に手を出して意味があるのは業界トップのサービスくらいだと思う(ウェブサービスはトップシェアと2番手以下の間に量的な差異があるのは明白だが、経験上は質的にも越えられない壁がある)し、ぶっちゃけ少なくとも大学の人はビッグデータには手を出さない方がよいと思っている(大規模なデータを扱うこと自体が研究テーマになりうる分野は別。)。まあ、あまりに「ビッグデータ」という単語に踊らされる人が多いので、仕方ないかもしれないが、今さら「スモールデータ」などという用語を使うのはちょっと燃料投下っぽいが(笑)