学部生のための NLP 若手の会シンポジウム

午前中はNL研2日目。[twitter:@tomo_wb] くんの発表、なんとかなってよかった。松本先生も無茶なことを……。[twitter:@ARAMAKI] さんの

  • 荒牧英治, 増川佐知子, 森田瑞樹, 保田祥. 日本人のオンライン・コミュニケーション上での平均使用語彙数は8,000語である. SIGNL-208.

が刺激的であった。これまで理解語彙を調査する研究は数多くあるが、データの収集が子どもを除いて困難である、という問題点があるため、使用語彙を調査する研究は少なかった。しかし本研究は言語が Zipf の法則に従うという仮定を置き、Twitter から取得した大規模データを用いることで、この問題を解決する手法を提案した。

この研究のおもしろいところは、これまで単語の足切りや辞書に含める・含めないといった基準は基本的には頻度を用いることが多かったのではないかと思うが (あるいは直観で決める)、「その単語の頻度から推定される期待ユーザ数から見てユーザ数がどれくらい偏っているか」という逸脱率を定義することで、「マジ」「アイドルマスター」といった、頻度は高いが一部のユーザしか使わないような語彙をあぶり出しているところである。言語の規範性を定量化する試み、と言えるかもしれない (今回は語彙、特に単語の部分だけであるが、「ら抜き言葉」などの文法現象も、同様に定量化できるだろう)。いわゆる工学的な研究ではないが、応用先がすくにいくつも思い浮かぶという意味で、非常に有用な研究だと思う。

あと、日本語コーパスワークショップでもご発表があるようだが、そちらではどのようにお話されるのか (そしてどのような質疑応答になるのか) も個人的には興味がある。@ARAMAKI さんは自分の道を歩んでらして、大変清々しい。自分も見習いたいものである。

昼休み、ちょっと宇津呂さんとお話する。いろいろと悩ましいな〜。根掘り葉掘りお伺いしていると時間がなくなり、[twitter:@overlast] さんと急いでご飯を食べる。学生を NLP に増やすにはどうしたらいいか、ということを考える。やはり2回に1回は東京で開催したほうがいいのではないかと思う (プログラム委員はしょちゅう発表などで出張しているから、いつも行っていないところに行きたいのかもしれないが……)。

午後から NLP 若手の会シンポジウムが開催。[twitter:@stomohide] さんがオープニングをしてくれて、その後自分が 誤り検出・訂正ワークショップ 2012 のオープニング。残念なことは、この場に甲南大学の永田さんがいらっしゃらないことであるが、これだけの聴衆を前に説明できると感無量であった。

あとで [twitter:@inuikentaro] 先生や宮尾さんからも、こういう目的とタスクだったのですね、これならよいのではないでしょうか、とコメントいただいたが、確かに開催のときにもっと説明したほうがよかったのかなぁ (一応、言語処理学会年次大会のテーマセッションで話したのではあるが、その内容をどこかに公開しておくとか)。

また、このコンテストで使ったデータはリアルに英語学習者支援に使われているデータであり、動詞の誤り検出や冠詞の誤り検出は、共催の教育測定研究所 (旺文社の子会社の研究所) で実際に使われているシステムで提供している機能であり、ここで優れたシステムが開発されれば、実際世の中で使われる可能性があるのである。あと、オーガナイザ報告でも述べたが、複合的な誤りや直し方が分からないような誤りは、今回は評価対象から除外したので、問題が難しすぎるということはないのではないかと思う (もちろん、それでも悩ましいケースは多々存在するが)。確かに日本人大学生の英作文を直すのは大変ではあるが、これが日本の現状であって、トイプロブレムを解いているわけではないのである。

今回オーガナイザの末席に加えてもらって、一番の収穫は、こういうデータで現実的に、かなりの緊急度で困っている人たちがいるということが分かったということで、こういうのを含めて対象にしていく必要があるのだなと痛感した。目の前の問題を解決しようとしてもがき苦しむのと、研究のための研究をして現実的なタスクを解かず簡単なところばかり対象にするのは、どちらも両極端であるが、その間のギャップをひとつひとつ埋めていくのが大学にいる自分たちの仕事なのだろうと思う。

誤り検出・訂正ワークショップのポスター発表では、若手の会シンポジウム本体のポスターに人が集まって閑散とすることを危惧していたが、蓋を開けてみると本体と同じかそれ以上にポスターに来てくださる方がいらして、非常に活発に、そして熱心に議論がなされていて、大変嬉しかった。コンテストに参加していただいた4チームがいなければこんな機会もなかったと思うし、若手の会と合同でやらなければこんなに盛り上がることもなかっただろうし、とてもありがたい。2回目も開催できるとよいのだけど、できるかなぁ。

夜は若手の会懇親会。今回は東北大学の学食だったのだが、やたら料理とドリンク、サービスのクオリティが高い。この規模のキャンパスでこれができるというのはどういうこと?! NAIST もこういうシンポジウムの懇親会で学食にケータリングを頼むとそれなりの料理をご用意いただけるのだが、東北大は次元が違う感じである。仙台駅から徒歩20分というのも非常に便利で、NAIST も最寄り駅からは徒歩20分で来られるが、これはちょっと完敗である。自然言語処理を志す高校生はぜひ東北大学乾・岡崎研究室を候補に入れていただけるとよいと思う (※ちなみに、研究室があるのはこのキャンパスではないそうです。)。学部生で大学院から自然言語処理を始めたい人は、NAIST もいいんじゃないでしょうか? # ステマ

懇親会終了後、有志20人弱で2次会。[twitter:@hillbig] さんと2人で空気を読まず鳥中華 (そば) を頼んだりしていたが (笑)、学部4年生の [twitter:@moguranosenshi] さんが「みなさんはなんで博士課程に進もうと思ったんですか?」という純粋な質問に対し @hillbig さんと @stomohide さんと3人で答えたり、有意義な時間であった。@hillbig さんが「博士号は一つの通過地点にすぎない。博士のときの仕事を一生引きずって、博士論文を超えられない人もたくさんいる。博士論文の仕事をどれだけ早く捨てることができるかが、研究者としては大事ではないか」ということをおっしゃっていて、なるほどなぁ、と胸に刺さるものがある。

自分も助教になってから半年〜1年ほどは、博士のときの仕事でやり残したことを含めて発展させるか、あるいは新しい研究テーマを模索するか、非常に悩んで苦しい時期があった。なんとなく [twitter:@seijik42] くんの研究相談に乗っている間に (ほとんど雑談からスタートしたようなものだが) 第二言語教育・学習をテーマにする研究グループが大きくなって、一緒に研究しているうちにこうやってワークショップを共同で開くまでになり、いまでは誤り検出・訂正も愛着のある一つのテーマになったが、博士のときの研究スタイルと根本的に違い、いまでも自分が研究していると言ってよいのか自信がない。ただ、いまの自分はこうやって試行錯誤することも含めて、いろんな方々から非常に気長に育ててもらっているなぁと感じることがあり、悩みながらも自分で変化していくことで進んで行くのかなと思う。

今回の若手の会はたくさん学部生の人に会うことができ、非常によい会であった。やっぱり学部生や高校生くらいの人がもっと来てくれると、若手の会としてこんなにありがたいことはないなぁ。今回は情報処理学会の特別なご配慮で学生は NL 研の参加費無料にしていただいたが、もっと根本的に支援できないかな? (たとえば情報処理学会情報科学若手の会は合宿形式だが、一時期は交通費相当額くらいの補助が出ていたので、実費の宿泊費を出せば聞きに来られたし、宿泊費は学年によって傾斜がついているので、どういう人が対象かの発信にもなっていた) そろそろ来年のことも考えないとな〜