ウェブを研究対象にしている研究室の学生は必ずしもウェブ業界に就職するわけではない

企業の方々に奈良まで来てお話をしていただく。ちょっと学生の集まりがよくなかったのが残念だが、授業の時間に被っている(かつちょうど試験・レポート週間)なので仕方ないか……。

お話はいろいろと興味深かった。逆にこういうお話はもっと広く学生の人たちに聞いてもらいたいなぁ。来年の M1 向けの招待講演にどなたをお呼びするかいろいろ考えているのだが、修士に入った早いうちにこういう現状を知っておくのはいいことだと思う。世の中でなにが流行っている、流行りつつある、というのは身の回りだけしか見ていないと (特に外界から隔離されている NAIST なんかだと……) 読み誤るかもしれないし。(たとえば NAIST の学生はほとんどが家にテレビを持っていないが、そう言うと「テレビがないなんて信じられない、家に帰ってきてテレビがなかったら寂しくて死んじゃう」とびっくりする人も多い)

検索してみるとたとえばDeNA では2012年度の新卒採用プロセス、もう始まっているのか。びっくり。(12月3日締切が第2回目って……)

午後は勉強会×2。DMLAでは@syou6162さんが

  • David M. Blei and John Lafferty. Correlated topic models. NIPS 2005.

を、意味談話解析勉強会では yoshitaka-y くんが

  • Murthy Ganapathibhotla and Bing Liu. Mining Opinions in Comparative Sentences. COLING 2008.

を紹介してくれる。

前者のまとめは本人による解説が詳しいが、後者は比較文からの意見抽出を対象にした研究で、「iPhone より Galaxy S のほうが画面が大きい」のように2つの事物のどの属性がどう(positive/negative)か、ということを解析したい、というタスク。手法的には全然凝っていなくて (ユーザのリビュー記事から抽出した事物や属性の素性を入れたりしているのが効いているような感じ)、タスクが新しい、という点がこの論文の売りのようだ。

こういうのを見ていると、nozomi-k さんが食べログのデータとか携帯電話の比較サイトとかからの意見情報抽出やっていたのを思い出すなぁ〜。有用であることは間違いないのだが、相当基盤技術を作り込まないといけない、というのが自然言語処理の分野外の人から見ると「なんでこんなのもできないの?」と思われてしまうところなんだろうか。

  • Nozomi Kobayashi, Kentaro Inui and Yuji Matsumoto. Extracting Aspect-Evaluation and Aspect-of Relations in Opinion Mining. EMNLP-CoNLL 2007. PDF

の文間(inter-sent.)の結果を見ると精度・再現率ともに10%台で、とにかく無茶苦茶難しい問題なのだと思う。作業者間の一致率を見ると割と高いので、人間にはできるが機械には難しい類のタスクで、なにが足りないのかまだ決定打がない、という感じなのだろうけど……

@yanbeさんが「ウェブを研究対象にしている研究室の学生は必ずしもウェブ業界に就職するわけではない」というお話をされていたが、確かにウェブのようないわるゆ CGM (consumer generated media、つまりユーザがリビューを書いたりなど、データを作るメディアのこと)の研究をすると、簡単にできることと難しくてとてもできないことの感覚が身に付くので、表の露出度が高い B2C (ユーザ向けのビジネス、つまり精度が重視される) にはあえて飛び込もうと思わなくなってしまうのかも。ウェブのデータを対象にするにしても、再現率があるなら精度や速度、見栄えはそこまで問われない企業向けの仕事ができるところに行くとか。論文は書かないにしても企業の研究所に就職するというのはそういう意味で妥当な選択かなと思う。

合計3時間以上坐っていて、相当へろへろになるが、大学宿舎の自治会があるので出席。大学宿舎のネットワークの老朽化に関して、そもそも職員の家族が大学のネットワークを使うのはどうなの? という議論があったが、確かに家族は研究とは関係ない利用がほとんどだろうなぁ。たとえばパブリックコメントの投稿を呼びかけるとか、大学のネットワーク利用に関する倫理規則に抵触するだろうが、こういう活動を大学のネットワークを使ってやっちゃいかんだろう、という話。罰則はないのかと思ったらアカウントの停止とか懲戒処分とかできるらしい。へ〜。自分は e-mobile も契約しているので大学のネットワークが使えなくなってもそんな困らないのだが、論文のダウンロードとか VPN 経由でやらないといけなくなるのはちょっと手間かも。

ちなみに学生宿舎と職員用の宿舎でいろいろと扱いが違うのは、元々職員用の宿舎は国立大学のときは総務省の管轄 (国家公務員に対する福利厚生) で、学生宿舎は元から大学の持ち物だったから、だそうだ。外から見ると全然違いはない (道路でつながった真向かいにあるし) のだが、そんな縦割り行政の弊害がこんなところにも来ているのか……。