楽天シンポジウムで学生代表としてパネル討論してきました

今日は楽天研究開発シンポジウム。東大の@infoplosion 先生、慶応の @jirok先生、ニフティの松井さんとパネル討論するという大役があるので朝から緊張。

実は楽天技研に来るのはこれが初めてではなく、世界を目指す楽天とバイドゥという記事でも書いたように、今年は学生をひきつれて「社会科見学」と称してNaver、PFI、Google、バイドゥなど、いろいろな企業のオフィスを見学させてもらったので、今回は2回目。

こんないろんな企業の人たちが中を見せてくれるのって、学生の特権なので、機会があったら少々無理してでも行ってみるといい。手みやげというか、自分がどんなものに最近興味を持っているのか、最近おもしろいと思ったことはなんなのか、プログラミングでも研究でもいいので、話せるように準備しといてね。

ちなみに、前回は@thanhthao216さんに「見学できますか？」とお伺いしたら@masa3chさんをご紹介いただき、初対面なのにお忙しい中 (ちょうど楽天第2タワーに研究所が引っ越す前だった) 対応していただいて感激であった。

さて、午前中は「楽天データチャレンジ」と題し、楽天市場などのデータが入った楽天データセットを使ってなにか研究してほしい、という企画。関根さんが挨拶で「タスクをオーガナイザーが設定してやる形式も考えられるが、自由な発想でリアルなデータからできることを考えてもらえれば」ということをおっしゃっていたが、10本のライトニングトークを聞くと確かにこの方針は大成功。確かに「この研究ならまだまだやらないといけないことはあるだろう」と思う発表もあるが、いずれもアイデアというか着眼点がおもしろい。テクニカルな点は学部生の発表が中心だということを考えると逆にこれからどんどんよくなるだろうし、みんな頭柔らかくて楽しい。

個人的には「宿泊施設の立地に関する指標提案」がおもしろかった (あとで受賞されていたが納得)。内容をかいつまんで話すと、楽天トラベルのリビューのデータと Google Map API を用い、駅からの距離とその施設が「遠い」か「近い」か分析する (係り受けを見て決定)、という研究。こういうふうにグレードをつけることができる形容詞 (実リビューからテキストマイニング) と実際の数値を対応付ける、というのは数値データに自然言語をマップするために必要なことだと思うし、実際クリアに関係が出ていて「なるほど」と思う。さらにここで研究が終わらないのがさすがで、その施設が都会にあるか田舎にあるかで「遠い」と感じる駅からの距離が違う、ということまでグラフを描いて示していて脱帽 (確かに奈良にいるとほとんど車で移動するので駅からの距離は関係ない)。そういう分野の違いを検出し、あらゆる形容詞でこういうふうな数値と単語 (あるいは属性名-属性値の組) の対応が取れると有用だろうな〜と思うのである。

大変おもしろかったので、修士論文これで書いているのかな、あるいはこれどこか国際会議に投稿しているのかな、と思って質問してみたら、いままだ学部3年生らしい。いや、こういう研究してくれる人がまだ学部3年ってのはすごく嬉しいものである。

お昼はどうしようかな〜とぶらぶらしていたら楽天の安武さんが「お昼ご飯どうですか」と誘ってくださったので外に食べに行く。何人かでわいわいという感じかと思ったらサシでお話することができたいので、いろいろと突っ込んだ話をしたり。安武さん自身、現在でこそ取締役だが、創業当時からいるメンバーで、すごく小さい会社から、いまのような巨大な企業まで体験しているので、会社の規模が変わるにつれてそれぞれ違った問題が出てきておもしろい、という話が印象的だった。自分は奈良先端大のような小さな(学生1,000人くらい?)大学が合っているのかなぁと思っていたが、大きいところは大きいところでそれなりにおもしろいのかも、と考えてみたり。

あと楽天もいまはみんなが知っている企業になってしまったので、営業の仕事は外から (楽天を知っている企業から) 来る電話を受けるのが仕事になっているが、創業当時は誰に名刺を渡しても「楽天? そんなところ知らない」と言われて苦労して飛び込み営業をしたりしていたので、そういう時代を知らない若手社員が増えていることに危機感を抱いていて、どうやったら社員を「苦労」させることができるか、と頭を悩ませているそうで。

もっとも、営業系の仕事はまだそれでもうまく回っていて、問題はエンジニアの人たちにどう問題を乗り越える経験をしてもらうか、ということだとか。確かに、小さい規模のときは若手社員が解決できる手頃なサイズの問題がそれなりに発生していたのだろうが、あれだけ大規模になってしまうと容易に小さな「失敗」ができなくなってしまい、失敗すると大きな失敗になってしまうのだろうなぁ。

そう考えると、やっぱり学生のうちにできるだけ失敗しておくといいんじゃないかと思っている (笑) 動かないで時間が過ぎていってしまう人が多いと思うのだが、いろいろ試してみて「ああ、あれは失敗だったねえ」とあとからネタにできるくらいあっけらかんとするほうが、長い目で見ると経験になるんじゃないかな。

さて、午後は @infoplosion 先生による大規模なオープンデータの話。いつもの喜連川節が出ていて冒頭から会場は笑いの渦に (笑)　でもやっぱり卓越していたのはいまのようにインターネットが流行る前からデータベースに着目し、ずっと研究をしてきたことかなぁ。喜連川優氏インタビュー「情報爆発IT基盤によって人に夢を与えよう」を見ても博士後期課程のときにデータベースの研究をすることにした、とあるが、1978年というのはちょうど自分が産まれた年である。いまでこそ、@infoplosion 先生の提案されたハッシュに基づく高速なデータベース操作はいろんなところで使われているし、最近の人には「MapReduce は @infoplosion 先生が30年前に書かれた論文が世界で初めて提案したものなんだよ」と言う方が通じやすいかも。たつをさんの日記にも書いてあった。

あと、@overlastさんの日記で Stanford の学部生向けのデータマイニングの授業で使われているデータマイニングの教科書「Mining of Massive DataSets」が取り上げられているが、これは第2章から MapReduce の話が出てくるという教科書で、いまどきのデータマイニングの教科書だったらここから入るのが流行かぁ、と思ったりもする。目次を見るとリンク解析の話題もあったり。今年は "Data-intensive Text Processing with MapReduce" を勉強会で途中まで読んだが、来年はこれ読んでみてもいいかも〜

夕方からパネルディスカッションの打ち合わせ。80分しかないのに京都と東京で中継するので、ほとんど自由時間がないらしく、京都側と東京側の司会が発言のターンをコントロールすることになるそうで。いろいろ話したいこともあるとはいえ、データを使う大学(というか学生)の立場からの発言に徹することを決意。大学では人手でタグ付けするデータを地道に作る役割がある、というような話もしようかと思ったのだが、それはまた今度 (笑)

パネルでお隣だった松井くにおさん、富士通から出せるデータってなんだろう、と考えて、パソコン通信時代のニフティサーブの書き込みデータを出すことにした、というお話をされていたが、個人的には @tetsuvrx さんを口説いて富士通研に来てもらった話とかがおもしろくて印象に残った (笑)　@yto さんといい @sassano さんといい、ヤフーに移ってしまった人が多いのだが、これからはクラウドにも注力しているようだし、自然言語処理+ウェブで行くのかな〜。一般ユーザ向けで勝負するとなると、日本の大企業はスピード感的に小さい企業にちょっと太刀打ちできなそうな気がするのだが、きっと大企業とか大学、官公庁相手にやっていくのだろう。ヤフーとも棲み分けなのかもしれず。

パネルディスカッション自身は無事終了。@norizmさんのように「mamoruk さんのパネルのためだけに来ました！」と言ってくれる人がいたりしてドキドキしたのだが、「関根さんから「学生代表として話してください」と言われたので、学部で3年留年して7年いて、大学院で5年、合計大学に12年いた自分以上に適任な人はいないでしょう」と言って笑いも取れたのでよかった (笑)　ちなみに笑いが起きなかったら「ここ笑うところです」と言おうと思っていたので、ご協力くださった方々どうもありがとうございました (笑) ※ちなみにみなさんご存知かと思いますが、今年の4月から社会人です。

討論のハイライトとしては、@norizm さんがツイートされていたが、もう一度引用しておくと、

喜連川せんせい「アメリカでは僕の同僚とかみんなサーチエンジンとか大規模サービス会社とか行っちゃう．面白いことができちゃうから．教える人が居なくなってる．どういう問題を解決していくかとか，どういう価値を作り出すか，とか考えて実行する場としての学が必要．」

ということで、企業の中にいないと触れないデータがたくさんあって、それは (自分も検索クエリログと検索クリックスルーログを使って痛感したが) 相当おもしろいデータで、@infoplosion 先生も「ユーザの行動のログがほしい、これは大学の中では大規模に手に入れることはできない。とにかく企業の人はごちゃごちゃ言わんと全部データ出しなされ」とおっしゃっていた (笑) が、こんなに早いサイクルで研究が進んでしまっていて、ウェブのデータを使うなら大学で研究をする意義ってなんなんだろう、と本当に悩む。

実は今年のさきがけでは「NLP×DB」というタイトルで申請書を提出したのだが (一応サブタイトルはつけたが)、上記の @overlast さんの日記でも書かれているように、大規模(ウェブ)データが対象だと自然言語処理とデータマイニングの垣根は非常に曖昧になり、言語というのは多数ある特徴のうちの一つにすぎなくなるわけで、じゃあそういうとき逆に言語の特徴を活かそうと思ったらなにができるか、と去年から今年にかけてはうんうん考えていた。センサーデータなんかもどんどん使えるようになると (Kinect を見るとそういう時代はもう来ている) もっと世界は変わるわけで、言語に特化した現象を (人手でタグづけしたりして) 丹念に追うのでなければ、もう割り切ってつき合うしかないのだと思う。

割り切ってつき合う一つの解としては、アメリカのように、9ヶ月は大学でお金をもらい、3ヶ月は無給になるのでその間に企業に行ってデータを触らせてもらう (あるいは学生だったらインターンシップで行って使う)、というものがあるが、根本的には「大規模データを見るだけで興奮する、いろんなおもしろいことができる」という状態を解決することはできない (する必要もないか?) ので、大学とウェブとのうまいお付き合いの仕方、自分も結論があるわけではない。

結局自分はしばらく言語に特化した研究をしようと決めたのだが、「大規模データがあればウハウハ」という状態はできるだけ学生の人には経験してもらいたいと思うので、特に博士後期課程に進学する人にはインターンシップに行くことをお勧めしている。その上で、自分がやるべきことは、それと競合しない形でおもしろいことができる (大規模データもおもしろいが、こっちの研究もおもしろい)、ということを考えて実行していくことなのかなと思っている。

パネル終了後、懇親会ではいろんなお久しぶりの方々とお話をしたり。いや〜、肩の荷が下りたせいか、すこぶる楽しいな〜　話したいと思った人を順番に回るだけでタイムアップ！　あっという間だった (汗) 今回の懇親会の目的は @kmura さんが元気かどうかお会いすることだったので、少なくとも目的が達成されて安心 (笑) 行って数ヶ月しか経っていないのにすでに兄貴分となっているのはさすがである (NAIST でもみんなから慕われていましたしね！)。適材適所ってのはあるのかなと思った。

帰り、@takahi_i さんと @smdask さんの松本研 OB/OG でアイスクリーム。いや〜、みなさんから元気もらって今回のシンポジウムは参加して大満足。個人的には学部生から院生からものすごくアクティブな筑波大学の自然言語処理 on the Web グループを見習って、奈良先端大にもアウトプットばんばん出すグループができるといいなぁと思った。みなさんどうもお疲れさまでした〜