計算言語学と自然言語処理

午前中は GPU 実習ミーティング。Percy Liangのページに行くといろいろなソフトが公開されている。学生のうちからこうやっていろいろ書いていると、論文だけじゃなく財産になるのだろうなぁ。

午後は機械翻訳勉強会。日本語と英語の翻訳の問題。「文」とはなんだろうか。

「自然言語処理」をやっていると、直観的に正しいことが実践的にも正しいとは限らない、という状況によく遭遇する。つまり、エラーが含まれるのは確かに気持ち悪いのだが(たとえばクラスタリングしたら必ずゴミクラスタができたりする)、エラーが入っていても問題がないように作ればよいだけであり、ゴミが入っても頑健に動くほうがカバー率も高くしっかり動く、ということが往々にしてある。

しかし「計算言語学」という立場(しばしば「自然言語処理」の同義語として使われるが)からすると、頑健に動くかどうかは割とどうでもよくて、それで言語のなんらかの本質に迫っている感があるかどうかが重要かなと思う。

それで冒頭の問題に戻るのだが、果たして自分のやっていることは言語に迫っているのだろうか、と考える。役に立つことは確かにやっているとは思うのだが、これでいいんだろうか。