悩ましい事例こそこれからの研究対象

先日日記に CICLing に行くと書いた@yishii_0207 さんがメッセージくださったので、朝のセッションの前に会場近くで朝食をご一緒することに。

言語教育への自然言語処理の応用について話す。使えるものを作りたいのか、それとも研究がしたいのか、という立ち位置の違いでどうやるかも変わってくるのかなと思う。両方一致するのが理想なのだけど、現実のデータはそんなに甘くない。論より証拠、実際の作文を見てみると悩ましい事例がたくさんある (だからこそ研究の対象であり、おもしろいのだけど)。

CICLing の4日目の基調講演Diana McCarthy さん。語義曖昧性解消や意味的類似度の問題についてのトーク。解析モデルの話ではなく、意味解析の難しさ、つまり「この単語の意味を3つに分ける、あるいは5つに分ける根拠はなにか」というような話。

人間でも意味に関するタグづけはしばしば一致しないのだが、一致させた方がいいのか、それとも一致しなくてもいいのか、という問題提起。教師ありデータから機械学習する自然言語処理、できる部分はできるようになっているのだが、できない部分、あるいはコスト的に(不良設定問題で高品質のタグがつけられない、という他に、作業者の育成に時間がかかるとか、育成は簡単だけど単に人手がかかるとか)見合わない部分も明らかになってきていて、機械学習も万能ではない、ということなのかなとは思う。

午後ちょっと抜けて共同研究のミーティングへ。研究に理解がある企業のほうが話しやすいな〜。もっとも、企業の人とやるのだとすると、なにが収益につながるのかは考えないといけないが……。

過度に期待されたり警戒されたりも困るが、逆に自然言語処理で20年前に実用化されている技術が知られていなかったり、といったことはよくあるのだが、こればかりは「中の人」が地道に宣伝活動をしていくしかないのかと思う (この日記も自然言語処理NAIST の宣伝が8割である)。「こんなこともできないの」から「こんなこともできるの」まで、分かっていること分かっていないこと混ざっていて、うまく行かないところがこれからの研究対象なんだと思うのである。