ウェブマイニングと自然言語処理の間

今日は WebDB Forum 2014 に参加。名古屋で開催されている IBIS 2014 とどちらに行くか迷ったのだが、すでに2回の補講が決定している月曜火曜の授業を休んで行くのは厳しいなと思ったのと、WebDB Forum は東京開催なので学生も参加するかと思い、こちらにしたのであった。

蓋を開けてみると、現地に来てくれた学生は4人しかおらず、意外。研究室に配属される前のB3学生に聞いたり、学外からうちの研究室の受験を希望するB4学生に聞くと、8割程度の確率でウェブからの情報抽出的なことがしたいと言われるし、実際うちの研究室でもそんな感じなので、半分以上来るのではないかと思っていたのだ。確かに秋口になってから、必ずしもウェブ応用タスクばかりでなく、自然言語処理の要素技術に興味を持つ人も増えてきた気がするし、これはこれで悪くないことかもしれない。

午前中は特別セッションで、ビッグデータ時代の産学連携について。

論文だけ書いてリファレンスとなる実装を公開してくれないと、実験が再現できなくても実装がまずいのかどうか分からないので、企業としては実装を公開してほしい、というのはなるほどと思う。word2vec などはその最たるもので、実装(とデフォルトのモデル)があったことで多くの人が試すことができたし、ソフトウェアごと公開する、というのがもっと評価されるとよいなと思う(自分も必ずしもできているわけではないけど)。

午後はいくつかのセッションに飛び飛びに出る。全体を通じた漠然とした印象だが、(適切に、という意味ではなく)適当に数百件タグ付けしたデータを作ってとりあえず機械学習してみました、というような話が目について、質問やコメントをするか迷いつつ、少しフィードバックしてみたり(学会でも発表するということは、コメントを聞く用意はできていると思ったし)。企業セッションはウェブマイニング的な話よりデータベース・システム寄りの話が多かったが、セッションに関するツイートを見るかぎりそちらのほうがおもしろそうだったので、そっちに行ってもよかったかも。

東大喜連川研の方々の発表がおもしろかった。分布類似度はまだまだ研究の余地があると感じる。

懇親会はポスターセッションつきで、ご飯を食べて雑談したりもしつつ、ポスターを見て回る。[twitter:@keyakkie] さんの以下の話がおもしろかった。グラフに基づく(というか、探索問題として定式化した)語義曖昧性解消を整数線形計画法で行う、というお話で、自分の理解した範囲では、同一文書では似た語義が選ばれやすいという one sense per discourse という仮定をうまく整数線形計画問題として表現した、というところが貢献なのかなと思う。他にも恐らく解き方はあって、easy-first で曖昧性のない語義を持った単語を足がかりに全体の語義の整合性が取れるように決める、というやり方もあるだろう。

結局語義曖昧性解消も、データスパースネスの影響をもろに受ける(たとえばステミングをするかしないかで、大きくパフォーマンスが違う)ので、単語の分散表現などを学習してゼロ頻度問題を解決するとブレイクスルーがありそうに考えている。

こうしてときどきは分野外(隣接分野ではあるが……)の学会に出てみるのも悪くない。近いうち、DEIM にも出てみたいのだが、3月に2回全国大会に行くのは厳しいんだよなぁ。どちらかが日帰りできるくらいの近場ならいいのだけど……。