科研シンポ

今日は NLP week の一環ということで『言語処理技術の深化と理論・応用の新展開』科研・合同シンポジウムに行ってくる。

プロジェクト推進者の人たちからまとめてこういうふうに話を聞く機会はあまりないので有意義であった。登録していた人は140人いたらしい。確かに出入りはあったけど延べ100人以上来ていた気はする。

半分くらいの人がブログデータについて言及していたけど、日本語ブログデータ使うときの問題について言及していたのは中川さんだけだったのではないかな? このあたりは Nobuyuki さんとも先日議論したけど、単にデータが少し増えるだけとか、特別な分野のデータが増えるだけと思っている人が多いような気がするのだが、根本的にブログ(Web)データって特別な種類のデータで、そもそも扱える環境を整えるだけで一苦労というか、アプローチからして変えないとまともに使うことができないデータなんだと思う。スパムブログの検出とかも含めて。そしてその対策は自然言語処理だけでがんばろうとするとはっきり言って徒労で、ヘッダ情報とか IP とかアクセス時刻のマイニングとか、分野横断でやらないといけない性質のものだと思う。(だから大学の人は苦手)

大学は企業と違うんだから住み分ければいいのであってむしろ企業のやらないような基盤技術をやるべきだ、という話も聞くし、それはそれで正しいと思うが、せっかくこの分野は大学でも企業でも同じターゲットに(異なるアプローチで)取り組むことができるところなので、最低限問題認識のレベルでは共通した認識を持っていていいのではないかと思うのであった。