NLP2013 3日目: 実際のアプリケーションを想定して研究する

朝、地下鉄で[twitter:@cocha123t]さんと合流。今回はご家族でいらしているようで、昨日[twitter:@naoinui]さんともポスターのとき一瞬だけすれ違ったのであるが、@naoinui さんとはメル友ならぬ絵はがき友 (文通というのだろうか……?) なのである。松本研どうなるんでしょうかという話が出たが、どうなるのか自分もよく分からない……。いずれにせよ松本研は松本研としてまだまだ続いていくと思うので、自分も遠くから見守りたいと思う。

9時からは情報抽出のセッションで、[twitter:@wk_kiyoshi] くんのレビュー文書からの省略された評価情報抽出に関する発表。

  • 柏木潔, 小町守, 松本裕治. レビュー文書からの省略された属性の推定を含めた意見情報抽出. NLP2013.

1分ほど発表時間がオーバーしてハラハラしたが、かなり質疑応答が活発で、よかった。セッション終了後も何人もの人が次から次に質問・コメント・アドバイスに来てくれて、ネタ的にも注目度が高いんだな〜と、嬉しく思う。実験的にはまだまだやらないといけないことがある (データもなんとかしないといけない) のだが、なにがあればできそうか、というコンセプトは示せたと思う。

11時からポスターセッションで、[twitter:@tuxedocat_tw] くんの英語学習者の作文における動詞選択誤り検出・推薦の発表。

  • 澤井悠, 小町守, 松本裕治. 学習者の誤り傾向を反映した英語動詞選択誤りへの訂正候補推薦. NLP2013.

@wk_kiyoshi くんの発表に対する議論で、増援部隊として行くのに20分くらい遅刻してしまったが、問題なく単騎でこなしているようで、さすが。途中からパラレルで説明要員に。たくさんの方々がいらしたが、影浦さんがふらっときてしてくれたコメント・質問がいちばんグッと来るものがあった。やはり言語学・言語教育的な背景まで踏まえた直観というのがとても鋭いのだと思う。

大きなコメントは2つあって、Lang-8 の添削は語学教師からは質が悪いという評判だが、これでいいのか? というもの。我々の答えとしては、問題ない理由は2つあって、1つ目は添削自体を誤り検出・訂正に使うのではなく、添削から抽出した誤りパターンの知識を誤り検出・訂正に使うので、誤り検出・訂正自身は Lang-8 のデータから学習するのでないから問題なく、2つ目は添削がなされていない部分は信用できないが、添削されている部分はそこそこ正しく添削されているので、知識抽出の観点からは問題ない、というのが答えである。もっとも、そういう答えを期待されているのではなかったような気がして、そのときは答えられなかったのだが……。もう一つのコメントは、ネイティブ向けなら複数の選択肢を出して選択させても大丈夫だが、学習者は間違った選択肢を見せられると混乱するため、確実な選択肢を見せたほうがよいから、本当にこの技術をサービス・アプリケーションとして作るのであれば見せ方を考えたほうがよい、というもの。これは実際に作ってみないと分からないかな……。

お昼は誤り検出・訂正ワークショップに関するランチミーティング。IJCNLP 2013 の workshop chair の [twitter:@chokkanorg] さんからも昨日話があったが、IJCNLP でワークショップをオーガナイズするのはさすがに厳しい (あまり準備していなかった) ので、見送ることに。開催しようと思うと、半年〜1年くらい前からちゃんと用意しておかないと、急にはなかなか……。

午後、ヤフーブースで [twitter:@sassano] さんに音声アシストのデモを見せてもらう。ツンデレらしい。[twitter:@hitoyogusa] さんと [twitter:@keiskS] くん、[twitter:@yuchang] も来たので、いろいろ試して楽しむ。裏側の話を聞かせてもらったりして、おもしろい。いまやるならこれかなぁ。リアルに日本語の (音声) 対話エンジンを作れるのは、もしかしたらいまが最初で最後で、その瞬間に立ち会っているのかもしれないし。

最後のセッションは hiromichi-s くんのブログ著者の年齢推定の発表。

  • 酒井啓道, 小町守, 松本裕治. ブログ情報とブログユーザ間のリンク構造を用いた著者の年齢推定. NLP2013.

奥村先生が評価に関して厳しい質問をされていたが、どう答えるのがよいのかよく分からず。確かに具体的なアプリケーションを想定してそれで使われるような評価をするべきだ、というのも分からなくはないが、回帰問題として定式化して実数値で出しているので10代・20代・30代・40代というような離散的なクラスに分けて評価することは簡単 (逆は難しい) だし、既存研究のように10代ごとに区切ることにマーケティング的な根拠があるかどうかも不明だし (たとえば視聴率の年齢の区分は4-12, 13-19, 20-34, 35-49, 50-)、アプリケーションによってどのように切るのかは異なるだろうから、手法の良さを測るのであれば実数値で予測する方がいいような気がするのだが…… (もっとも、年齢の高い世代は少しくらい間違ってもいいが、年齢の低い世代は1歳でも間違ってほしくない、というような評価が必要なのであれば、全ての世代を混ぜるのはよくないが)。

今回の会場の都合上仕方ないが、ほとんど共著の発表のあるセッションに出てそこにロックオンされていた感じで、あまり他のセッションの話を聞くことができなかったのが残念だったが、いろんな人と交流するという目的は達成できたので、今年の年次大会も満足。来年は北大 (なんと1年前から会場を確保!) らしいので、人生初の北海道、行ってみようかな〜。うまく日程を調整したら、スキー・スノボもできるのだろうか……