ACL-IJCNLP 2015 2日目: ショートにも短いなりのおもしろさ

朝起きて、学生の論文の添削の続き。日本の大学のサーバ経由でアクセスしているせいかもしれないが、Google 検索がやたら遅く、添削に支障をきたす……。非ネイティブからすると、検索エンジンが使えないと英語で論文を書くのは相当厳しいので、大変やりにくい。

自分は「この表現、大丈夫かな?」と思ったら、まず Google で検索し、ヒット数や表示されるスニペット(数行出てくる周辺の文脈)でおかしなところがあれば "" で囲って完全一致検索をしたり、そのうちのいくつかの単語を *(アスタリスク)で置換してワイルドカード検索してみたり(前置詞とか動詞がよく迷う)、あるいは site:aclweb.org と自然言語処理の論文 PDF が膨大に索引付けされているサイトを指定して自然言語処理分野ではどのような表現を使うか調べたりしているが、これらが使えないだけで英文作成能力が1/10くらいになるのである。

ホテルの朝食を食べたが、せっかく中国に来ているにも関わらず、イマイチな感じ……(ポスターのときの食事でも思ったけど)。これはお昼に外に食べに行くしかない(笑)

午前中は Marti Hearst さんの基調講演。Marti Hearst といえば、自然言語処理では知らない人はいない「(自然言語処理における)ブートストラップ」という手法を提案した人として著名であるが、最近は教育に興味があるそうで、

  • Can Natural Language Processing Become Natural Language Coaching?

というタイトルでの講演である。大学教員向けの本を読んだりしていてもときどき見かける内容であるが、改めて箇条書きでまとめると、

  • たくさん演習させて、少しフィードバックするとよい
  • 1/3 勉強(インプット)させて、2/3 演習(アウトプット)をさせるのがもっとも効率がよい
  • 受動的に反復させるのではなく、能動的に反復練習するように仕向ける
  • 互いにディスカッションさせて効果があるのは、1/3-2/3の学生が正しい答えを導けるとき
    • 2/3以上の学生が正解できるなら、ディスカッションさせずに解説すればよい
    • 1/3以下の学生しか正解できないなら、ヒントを出したほうがよい
  • (成績をつける)評価ではなく(学生が理解をするための)フィードバックに焦点を当てる
  • 早めに失敗させて、簡単に修正できるようにする
  • 正しくできるようになるまで、学生に反復させる

ということである。「これがベストプラクティスだ」と言われても、(学校だけではなく、企業で働く人も、新人が入ってきたとき)指導する立場としてこのようにできるかどうか、というのは別問題で、これでやるにもスキルが必要だが、これがもっとも効率よい、という主張には概ね同意である。

日本の場合、学生がアウトプットに慣れていないので、アウトプットの重要性を分かってくれず(みんなの前で失敗するのは恥ずかしい、というメンタリティもあるのかもしれないが)、「あとで自分でやるからいいや」「時間ができたら復習するからいまはいいや」という学生が少なからずいたりして(ほとんどの場合、そういう学生はやらないし、できるようにもならない)、困難を感じることもあるが、とにかくトレーニングが必要な部分ではトレーニングだと思ってやってほしいと思う。

自分も大学(院)での授業については試行錯誤中で、いろいろ試してみているところだが、特に大学院の授業は隔年でしか回ってこないので、自分のスタイルが落ち着くまでに5-6年かかりそうである。

午前中のショートペーパーのセッションは、情報抽出のセッションに出てみたが、これまた微妙……。機械学習のセッションに出た方がよかったかな〜。

お昼は研究室の中国人留学生、寅くんに案内してもらって(というか、中国語の分かる人がいないとほぼ注文不可能)、四川料理のお店へ。自分は割と辛いのは好きなので、辛いけどおいしい。辛いといえば家から大学に来るまで行く途中の甲州街道沿いにある麺飯店 麻辣麻辣も相当辛く、最初食べたときは水を飲んだら角型の乾電池を舐めたように痺れるくらいになったのだが(ここまで辛いのは人生初めて)、1年に1回くらいは食べてもいいかな、と思うような中毒性がある。辛いもの食べてみたい人は、どうぞ……。

午後は機械学習と談話・共参照のセッションに出る。機械学習のセッションもそこそこおもしろかったが、個人的なヒットは談話・共参照のセッションで、

  • Kevin Clark and Christopher D. Manning. Entity-Centric Coreference Resolution with Model Stacking. ACL-IJCNLP 2015.
  • Sam Wiseman, Alexander M. Rush, Stuart Shieber, Jason Weston. Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution. ACL-IJCNLP 2015.

前者に関しては東工大すずかけ台キャンパスで開催される ACL 読み会で紹介予定なので紹介はそのときにするが、後者は共参照解析(たとえば、文章の中に出てくる首相と総理と安倍首相が全部同じ人を指している、というようなことを解析する)における先行詞と照応詞のランキングをするとき、多層ニューラルネットワークを用いて非線形の分類器の学習をする、という話(筆者らは気をつけて deep learning とか neural network とかいう表現を避けている模様)。

2013年に Kevin さんと述語項構造解析(共参照解析も含まれる)について話したとき、トーナメントモデルは(線形の分類器を何回も重ねることによって)非線形の学習をしているからうまく行くのだろう、という話を聞いて目から鱗であったが、述語項構造解析はかなり複雑な処理をするし、特にゼロ照応解析(省略解析)は本質的に非線形でないと学習できないと思われるので、深層学習の手法が効果ありそう、と考えている。結果の解釈が難しいという難点はあるが、この論文であるように素性を可視化することで議論できることもあるし、簡単なモデルでこれまでのもっとも複雑なモデルに相当するような精度が出るかもしれないし、誰かやらないかなー(去年からうちの学生に言っているのだけど、誰もやらないようで、もったいないので、こういうところに書いてみる。ちなみに前者の論文は、いま M2 の学生が去年の秋からやろうとしていた手法のアイデアとほぼ同じなのだが、実装ができずに6-7月に断念した)。

夕方は学生セッションで、[twitter:@moguranosenshi] くんと [twitter:@ace12358] くんの発表を聞く。

  • Yoshiaki Kitagawa, Mamoru Komachi, Eiji ARAMAKI (Kyoto University), Naoaki Okazaki (Tohoku University), Hiroshi Ishikawa. Disease Event Detection based on Deep Modality Analysis. In Proceedings of the ACL-IJCNLP 2015 Student Research Workshop, pp.28-34. Beijing, China, July 2015.
  • Tomoyuki Kajiwara (Nagaoka University of Technology) and Kazuhide Yamamoto (Nagaoka University of Technology). Evaluation Dataset and System for Japanese Lexical Simplification. In Proceedings of the ACL-IJCNLP 2015 Student Research Workshop, pp.35-40. Beijing, China, July 2015.(@moguranosenshi くんの発表は、いまはうちの研究室だが、長岡時代の研究)

Student Research Workshop というものに投稿したのは今回初めてなのだが、自然言語処理の国際会議の ACL と NAACL では、学生セッションが組まれていて、これは学生しか投稿できないし、一度採択されると二回目以降は投稿できなくなるのだが、けっこうしっかりとコメントをしてもらえて、サポートもしてくれると聞いていたので、昨年度の B4 の学生たちに投稿を勧めたのであった(結局 [twitter:@shin_kan0] くんはフルペーパーで採択されたので、こちらは取り下げたが)。

採択率は31%と、学生セッションだから採択率が高いのかと思いきや必ずしもそうではなく、意外であったが、サポートが充実しているというのは本当で、論文について(採択されたあとも)相当丁寧に見てもらえただけでなく、スライドやポスターまでちゃんとメンターがついてコメントをくれて、しかも旅費まで出してもらえる($1,500)ということで、至れり尽くせりである。学生セッションだから聴衆が来ないかというとそういうこともなく、割と有名な研究者の人たちが(恐らく査読者やメンターとして関係していて)数十人出席してくれて、かなり建設的なコメントをしてくれていた。特に学部生や M1 の人は採択されて国際会議に行ってモチベーションを上げ、修論相当の研究をトップカンファレンスに投稿してもらえれば嬉しいし、論文を投稿する先として、かなりお勧めできるのではないかと思った。

うちの学生2人は、練習時には若干不安が残ったが、堂々と発表していて、立派だった。質疑応答があまりうまくいかなかったが(あとで聞いたら、質問の内容は理解できたし答えもわかったが、適切に表現するにはどう言えばいいかわからないかった、とのこと)、セッションのあとオフラインで話したりできたようで、よかった。

自分も英語に堪能とは言い難いが、それでももっと研究室内の英語力を上げないとな〜、と思った。とりあえず TOEIC 換算で B4 終了時に550点、M1終了時に600点、M2終了時に650点、D1終了時に700点、D2終了時に750点、D3終了時に800点を最低ライン(これを下回る人は各自オンライン英会話をやるとか語彙問題を解くとか、時間を確保して取り組むことを強く推奨する)としたい。

ポスターも2日目はおもしろい発表が多く、目移りしてしまった。フルペーパーの論文は各種読み会や論文紹介で紹介されそうなので、今回はショートペーパーの研究を取り上げてみたい。(ここに書いたネタ、やりたい人はやってくれてかまわないのだが、複数箇所で別々にやるともったいないので、一報いただけるとありがたいかも?)

一番興味があったのは

  • Courtney Napoles, Keisuke Sakaguchi, Matt Post, Joel Tetreault. Ground Truth for Grammaticality Correction Metrics. ACL-IJCNLP 2015.

(ショートペーパー)で、[twitter:@keisks] くんが共著に入っているポスターであるが、彼は事情により来られなかったようで、Joel さんが説明していた。この研究、英語学習者の誤り訂正の評価尺度に関する研究で、この5年ほど英文誤り訂正の研究が盛んになってきているが、そこで使われている評価尺度が適切かどうかについての議論がなかったので、初めて自動評価尺度と人手による評価の相関を調べた、という話。そして、広く使われている自動評価尺度と人手による評価に実は相関がなかったので、新しく(機械翻訳の自動評価に広く使われている、機械翻訳の人手評価とは相関が高いことが示されている)BLEU とよく似た尺度の GLEU を提案する、というものである(BLEU そのものは、誤り訂正タスクでは人手の評価との間に相関がないことも、実験により明らかになった)。

これも同様の問題点を誤り訂正タスクに参加していた [twitter:@shirayu] くんが2012年当時から指摘していて、どうも人間が見た結果と精度に乖離があり、その原因はシステムの出力が不正解だったときのペナルティのかけかたで、惜しい誤りと惜しくない誤りで(n-gram などの分布類似度を用いて)重みを変えたほうがよいのでは、という手法を提案していた(メールを探すと、2013年2月には問題の定式化までできていたようだ)。今回の論文も、基本的な考え方は同じ(GLEU は n-gram ペース)なので、ちゃんと人手で評価して尺度まで提案して相関を出していたら、ACL ショートペーパーネタくらいにはなっていたんだなー、と思ったりする(自分も、それくらいが妥当だと思っていたが)。英文誤り訂正と切り離して研究できたし、@shirayu くんが博士論文で忙しかった間、他の人に協力してもらってやっておけばよかったなぁ。

あと、述語項構造解析を研究している身として、

  • Daniel Fried, Tamara Polajnar, Stephen Clark. Low-Rank Tensors for Verbs in Compositional Distributional Semantics. ACL-IJCNLP 2015.

(ショートペーパー)も興味があった。(主語, 動詞, 目的語) という3つ組をテンソルで表し、低ランク近似すると(動詞の)予測精度が上がる、という話で、自分たちも (動詞:格, 名詞) という2つ組の共起行列を作成し、pLSI などで次元削減すると(名詞の)予測精度が上がる、ということは経験的に分かっているので、それを2次元の行列から3次元のテンソルに拡張した、というもので、いかにも効果がありそうで、実際そこそこ効果があった(特に低ランク近似することでパラメータを減らせた)、という報告である。日本語でも同様のことができると前々から(少なくとも首都大に来る前から)考えているのだが、誰かやってくれないかな〜(これも、割と学生に言っている研究テーマの一つなのだが、誰もやりたいという人がいなくて放置されているテーマ)。

最後に、最近深層学習と形態素解析周りにも興味があるので、

  • Xinlei Shi, Junjie Zhai, Xudong Yang, Zehua Xie, Chao Liu. Radical Embedding: Delving Deeper to Chinese Radicals. ACL-IJCNLP 2015.

(ショートペーパー)も関心があった。最終的なタスクから誤差逆伝搬で単語の表現学習をする、というのはよくある話だと思っていて、最近は文字まで分解して学習するする人もいてびっくりしたものであるが(表意文字の中国語はまだしも、表音文字のアルファベットでそれを学習するというのはどうか?)、これは部首まで含めて表現学習するという話である。確かに漢字は「つくり」や「偏」に意味があると考えられるので、分解してそれぞれに意味があると考えるのは自然な発想であるが、本当にここまでやるか!という印象である。こちらも、日本語だとひらがな、あるいはローマ字(音)まで分解して組み上げられるのでは? と最近思っているので、誰かやらないかな〜と思ってつぶやいてみる(研究室で学生に話しているが、誰も興味ないみたい……)。

夜は Student Research Workshop で発表した人たちのお疲れ様会。餃子のお店のようで、メニューに写真がついていたので注文は割と簡単。あまり使う機会がなかったが、ここぞとばかりに自分も中国語で話しかけたり注文してみたり(結局中国語と英語のちゃんぽんであるが)。[twitter:@haplotyper] さんと一緒だったので、松本研のお話をしたり、こちらのお話をしたり。しかし助教2年目で学生と ACL のフルペーパー1本、ショートペーパー1本というのはすごい。自分ももっとフルペーパーを出していきたいものである。

[twitter:@neubig] さんが2015年の日本所属の言語処理トップカンファレンス論文ページを更新してくださったが、うちの研究室もようやく日本トップ10にランクイン。大学だけで数えるとトップ5だが、@moguranosenshi くんの仕事は長岡時代の仕事だし、3件中2件は Student Research Workshop 論文なので、実質的には1.00くらいではないかと思うし、まだまだである。これ、コンスタントに年間3本くらいトップカンファレンスに通る(NAIST にはどうがんばっても質・量ともに敵わないと思うが、京大や東工大、東大と同程度の論文数はトップカンファレンスに出せる)ようにしたい。

しかしこのランキング、いつもやたらと東北大の乾・岡崎研の位置が(国内の学会・研究会における高い評価と比較して)やたら低いように思うのだが、なんでこんなに低いのだろうか? 各種メディアに登場して自然言語処理を普及してくださったり、言語処理100本ノックを整備・公開してくださったり、という、論文の形では見えない貢献をしてくださっているので、期待しすぎなのかもしれないが、この1年は助教が不在だったのも関係しているのかなぁ。

そういえば [twitter:@naoya_in] くんが乾研の助教に着任、[twitter:@tomo_wb] くんが同じく研究員に着任したので、今年以降のトップカンファレンスでの活躍に大いに期待!