NLP2014 チュートリアル: 自然言語処理から言語学がなくなる日

自然言語処理学会第20回年次大会はチュートリアルからスタート。

[twitter:@urabe1011yuki] さんお勧めの札幌アスペンホテルのイカの塩辛とふかしいもを食べて会場に向かう。北大正門前で @inuikentaro 先生と合流し、NL研(情報処理学会自然言語処理研究会)の今後について道すがらお話しする。来年度から2年間NL研の幹事(もう一人の幹事は [twitter:@chokkanorg] さん)なので、日本の自然言語処理コミュニティの活性化について学会・研究会レベルで活動したいなと。研究内容そのものに興味がある人と、研究コミュニティに興味がある人と両方いると思うのだが、少なくともNL研に関しては、後者の役割は言語処理学会年次大会(その他全国大会)に奪われてしまっている感がある。これを活性化させたほうがいいか、あるいは年次大会とは別路線で行くべきか、そのあたりも含めて考えていきたい。

午前中のチュートリアルは [twitter:@kevinduh] さんの deep learning に関するチュートリアル(「Deep Learning の基礎と言語処理への応用」)からスタート。NAIST松本研のSVM合宿で聞いた内容とほぼ同じかな?と思ったが、だいぶ違って普通に deep learningチュートリアルとして基本的な話からしてくれ、分かりやすかった。「NLPでいろいろ試したけど難しかった」感がだいぶ薄まってしまって、逆にワクワク感が消えてしまった気もするのだが、「難しい」と聞いて挑戦したくなる人と逆に「手を出さないでおこう」と思う人がいるので、バランス的にはちょうどよかったと思った。

個人的な deep learning に関する所感を書いておくと、言語処理は高次元スパースと呼ばれていて、画像や音声とかなり違う設定であり、色や音のような連続的なグラデーションじゃなく単語や文法という離散的かつかなりの情報量のある単位を入力とでき、大成功を収めているそれらと同じようにはできないんじゃないか、と思う。うまく行くとすれば低次元かつ連続値の世界に落とし込んでなんとかする方向だろう。これがインパクトあるとすれば、何度かこの日記でも取り上げている2008年あたりから盛り上がっている意味の計算に関する研究で、たとえば、word2vec のような方向性かなぁと思うのである。(そもそも deep learning とは独立に、言語処理ではデータスパースネスが問題で、特に意味の計算ではそれが深刻であった、という背景)

チュートリアルの最後の方で、deep learning は流行か?という話題提供があり、@kevinduh さんは流行だと思っているが、流行だから避ける人もいるだろうけど、流行だと世界中の優れた人たちがおもしろいアイデアをどんどん出すので楽しい、という話をされていて、それもごもっともである。ただ、パッと思いつくようなアイデアは他の人だってすぐ思いつくし、一番乗り争いになってしまう(手の早い人たちばかり殺到している!)ので、そこで戦うのではなく、じっくり考えに考え抜いて、一つのことをとことん掘り下げた人でないとできないような研究をしましょう、というメッセージもあり、素敵だなと思う。

お昼は学生たちを連れて [twitter:@syou6162] くんたち NTT 研究所の方々とご一緒する。MSRA(Microsoft Research Asia)のインターンシップの話を聞いたりする。首都大からも、学部の規模からするとうちのコースから毎年数名は海外留学なりインターンシップなりに行けると思うし、行った方がいいとも思うので、誰か先陣を切って行ってきてもらいたい(笑)1人行くと、後に続く人は楽だし……。

午後のチュートリアルは [twitter:@marugorithm] さんによる文法圧縮入門。こういう圧縮の話は学部3年の情報理論の授業で話せる(学部2年のオートマトンと言語理論の授業でも話せる)ので、聞いておこうかなと。最近、チュートリアルに出る基準の一つに、授業で学生たちに話せるか、というのがあるのだが、「こういう分野にもいま学んでいることは使われているし、最先端の技術なんだよ」と教えて知的好奇心を刺激するのも教員の役割の一つだと思うし、あえて少し専門から遠いほうが、チュートリアルで勉強になる度合いも大きいので、楽しめるのである。(あと、授業で紹介すると、自分の勉強にもなる)

チュートリアル後、ホテルに移動して甲南大の永田さんと打ち合わせ。NLPフットサルの直前の時間でちょっと申し訳なかったが、年次大会はランチミーティングや懇親会で連日ほとんど予定が埋まるので、いつもスケジュールの確保が難しいのである。

打ち合わせのあとは年次大会のプログラム委員の反省会。会場に着いたら徳永先生のテーブルだけ空いていた(若手テーブルも空いていたが、若手の人たちは若手の懇親会でも会えるし……)ので、お隣に坐っていろいろお話を聞いたりする。

大学関係者で集まるとどうしても最近の大学は、最近の学生は、という話になりがちであるが、最近自然言語処理に興味があるという若者は、統計や機械学習ばかり学んで言語学について全然勉強しないが、自然言語処理としてはそれは問題ではないか、という徳永先生のお話が心に残った。確かに自分は言語学から自然言語処理に来たのであまり強いて勉強するのを意識したことはなかったが、松本研でも他の学生と話すと言語学の知識(興味)に差があることをときどき感じていたし、一度しっかり勉強した方がよいのだろう。こういうのをやらないと、単にできあいのコーパスや辞書を使って、ちょっとプログラムを書いて何かを回すことはできるだろうが、そこで学習されているものは何か?あるいは本来どうなっているべきか?ということが分からず突き進んでしまいがちで、分野として前に進んでいけないと思うのだ。

あと、いっそのこと「言語には興味がない」とすっぱり割り切る人の方がいろいろとスムーズで、「言語に興味がある」と口で言う割に、実際の言語現象を見たり、言語学について勉強したりしないといけなくなると、(プログラムを書くときは威勢がいいのに)ぱったり手が止まる、というのがけっこう困る。正解のないところでどう判断するか、という態度が問われるのだが、深く考えて「自分はこうする」と判断するという積み重ねなのだが、及び腰だと「ここどうするんですか?」と聞かれても自信がなく毎回違うことを答えて作業者が混乱する、みたいなのがありがちなパターンかなと……(自分も修士のとき失敗したと思うことがある)。

言語学の勉強をしていろんな知識を使えるのが言語処理のいいところだが、deep learning みたいなので職人芸が一掃される日が来るのだろうか?