形態素解析器を作るのは包丁を作ったり研いだりする仕事

メールの返事をひたすら書く。

昼、電話会議。なんだか先が見えてきて楽しくなってきた。やはり生データを見ると盛り上がってくるのは自分がそういう性分なんだろうか。

夕方、takeshi-na さんの意見情報マイニングのチュートリアルに出る。マーケティングの現場ではどこまでテキストマイニングが使われているかの体験談などお話くださって、参考になる。自分の感覚では、ウェブマイニングにいまの自然言語処理の技術を適用するのは、形態素解析くらいが限界で (それでも厳しい)、それ以上は難しいと思うのだが……。企業内で分野が限定されたテキストデータのマイニングなんかだと、たとえば製品名一覧が載っている電子マニュアルがあったり、専門用語辞書を内部的に持っていたりして、そういうのを使えるからいいのだけど、ウェブだとそんなのがないのでけっこうしんどい。ウェブデータからテキストマイニングしている人って、本当に顧客が満足する精度でマイニングできているんだろうか。

時系列がおかしいが関連するのでここに書いておくと、[twitter:@hitoshi_ni] さんのつぶやきで [twitter:@y8o] 先生の 自然言語処理紹介 (就職編) を知る。確かにウェブ業界で自然言語処理に関する技術はとても求められているのだが、なにが求められているのか、自分ではよく分からない。

形態素解析器や機械学習ツールを実装するようなレイヤーのエンジニアは強く求められているが、たぶんそういうエンジニアを求めている企業は Google とか Apple みたいな一部の企業で (上記のスライドに載っているような)、ただし、そういうところはそんなことをやっている人が喉から手が出るほどほしい (ただし、学生はそのあたりのレイヤーの研究はやりたがらない)。

逆に、それらのツールを使って適当になにかマイニングする的な感じのエンジニアはそこそこ需要があり、学生もこういう身近なウェブテキスト処理の研究にはたいへん興味があり、各社に1人くらいはいてもいいのだろう (ただし、学生はそのあたりの会社には行きたがらない)。

このあたりのミスマッチ、なんとかならないかなぁ。

ちなみに、ウェブテキストのマイニング的なことがしたかったら、恐らく NAIST ではなく、東北大学の乾研究室とか、筑波大学の山本研究室、宇津呂研究室、東工大の奥村研究室、あるいは @y8o 先生のいらっしゃる長岡技科大などに行かれるとよろしいと思う。松本研だと、ウェブテキストから情報をマイニングしてなにかする研究、というよりは、ウェブテキストからマイニングするための基盤技術の研究をしていて、前者と後者は、料理を作りたいか、それとも包丁を作りたいか、くらいの違いがあるので、たぶん後者に興味があるような人が来た方がお互い楽しいのではないかと思う。(もちろん、前者に取り組みたい人を排除するものではないし、前者をやりたいと言って入ってきて、しばらく研究室で学んだから後者がおもしろいと思って鞍替えする人もいるので、最初は前者に興味を持つのでもいいからとにかく入ってきてくれればいい、という態度の方がいいのかもしれないが……)

とある研究費の採択内定をいただく。ありがたい。これで来年度以降も継続して研究できそう。