ACL 2014 読み会@首都大

午前5時から ACL 2014 読み会の資料作成。ひたすらスクリーンショットを取る作業。本当は図表も自分で作れたらよいのだが、そこに凝るのは枝葉の話なので、横着させてもらう。

朝から研究室で ACL 読み会 を開催する。既に PFI で開かれたり、京大で開かれたり、NAIST で開かれたりしているが、これはうちでも開いておくべきかなと。自分の紹介したぶんも含め、おもしろそうな順に並べると以下のような感じだろうか(論文を読んでおらず、スライドだけから判断する限りにおいてだが)。

  1. Xianpei Han; Le Sun. Semantic Consistency: A Local Subspace Based Method for Distant Supervised Relation Extraction. (short)
  2. Jacob Devlin; Rabih Zbib; Zhongqiang Huang; Thomas Lamar; Richard Schwartz; John Makhoul. Fast and Robust Neural Network Joint Models for Statistical Machine Translation. (long)
  3. Mengqiu Wang; Rob Voigt; Christopher D. Manning. Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition. (short)
  4. Deyu Zhou; Liangyu Chen; Yulan He. A Simple Bayesian Modelling Approach to Event Extraction from Twitter. (short)
  5. Ting-Xuan Wang; Kun-Yu Tsai; Wen-Hsiang Lu. Identifying Real-Life Complex Task Names with Task-Intrinsic Entities from Microblogs. (short)
  6. Aliaksei Severyn; Alessandro Moschitti; Olga Uryupina; Barbara Plank; Katja Filippova. Opinion Mining on YouTube. (long)
  7. Zhongye Jia; Hai Zhao. A Joint Graph Model for Pinyin-to-Chinese for Pinyin-to-Chinese Conversion with Typo Correction. (long)
  8. Bing Xiang; Liang Zhou. Improving Twitter Sentiment Analysis with Topic-Based Mixture Modeling and Semi-Supervised Training. (short)
  9. Roee Aharoni; Moshe Koppel; Yoav Goldberg. Automatic Detection of Machine Translated Text and Translation Quality Estimation. (short)
  10. Hongzhao Huang; Yunbo Cao; Xiaojiang Huang; Heng Ji; Chin-Yew Lin. Collective Tweet Wikification based on Semi-supervised Graph Regularization. (long)
  11. Zhu Zhu; Shoushan Li; Guodong Zhou; Rui Xia. Bilingual Event Extraction: a Case Study on Trigger Type Determination. (short)

準備期間が短かった(というか、他の勉強会が多かった)ので、読む分量の問題で long より short を選択する人が多かったようだが、その分他の読み会ではあまり取り上げられていない論文の紹介もあって、トピック的には多様で、これはこれで意味があったように思う。クオリティ的にはやはり long と比べると微妙なものもあるが……。short と long で short のほうが紹介しやすいと思ってしまうのは、英文を読む速度(英語力の問題もあるが、背景の関連研究を把握しているかどうかとか、手法について基礎知識があるかとか)の問題が大きいように思うので、そのうち比率は逆転して行くような気もする。

自分の紹介した論文以外で一番興味深かったのは

  • Xianpei Han; Le Sun. Semantic Consistency: A Local Subspace Based Method for Distant Supervised Relation Extraction. (short)

で、関係抽出タスクである事例を表現するのに他の事例の線形結合で表せると仮定し、同一の関係クラス内であれば一貫性が高いと考えられるので、少数の事例でクラス全体が被覆できるはずだ、というようなアイデア。同じ関係でもいくつか異なる性質のサブクラスが混ざっていたり(クラスター仮説を満たさない)、線形結合で表せなかったりするのでは、という疑問はあるが、まずはシンプルなモデルを仮定して方向性の正しさを示す、というのは筋がよいやり方である。

ちなみに distantly supervised learning (distant supervision) というのは定訳がないように思うが、「遠距離教師あり学習」とでも言えばいいのだろうか、コーパスが得られない、あるいは少量しかないが、辞書的な知識あるいは自動解析ツールはある、というような状況で用いられる学習手法で、すでにタイプレベルでラベルが分かっている事例を用いてコーパスに自動でトークンレベルのラベルを付与し、教師データに用いるという、半教師あり学習の一種である。たとえば (X, Y) = (安倍晋三, 日本) は「X は Y の首相である」という関係を表しているラベルあり事例だが、ここから「安倍晋三」「日本」が含まれる文をコーパスから取得し、XとYの間のパターンを素性に用いて (ネタニヤフ, イスラエル) のような新しい事例を取得していくわけである。

最近情報抽出タスクでこの「遠距離教師あり学習」が流行っているのだが、これまであった半教師あり学習とどこが違うのかあまりよく分かっていないので、自分が誤解しているかもしれないが。ラベル付きのコーパスが少量しかない、あるいは全くない状況での半教師あり学習(弱教師あり学習=できるだけ少ないデータで教師あり学習に迫る精度がほしい)と、既にそれなりの分量のラベル付きコーパスが存在する状況での半教師あり学習(現在の最高精度の教師あり学習の精度をさらに上げたい)との区別があり、「遠距離教師あり学習」はどちらかのケースにしか適用されないのかと思いきや、そういうわけでもない。典型的には弱教師あり学習の設定で適用するもの(ラベルが分かっている事例から、コーパスに自動でラベルをつけて学習に用いるという、一つの設定の半教師あり学習)のようだが……。

また、自分が紹介したのは

  • Zhongye Jia; Hai Zhao. A Joint Graph Model for Pinyin-to-Chinese for Pinyin-to-Chinese Conversion with Typo Correction. (long)

で、スライドも公開しているが、ピンインを中国語に変換するときに、スペリング誤りの訂正を同時にやります、という話。これまでCHIME という IJCAI 2011 で発表された誤り訂正機能のある中国語の入力システムが提案されていたが、CHIME はピンインを入力するときスペースで区切って単語を入力する必要があり、現実的な設定ではなかったという問題があった(普通中国語は日本語と同じくローマ字で空白を入れずに入力する)。今回の話は、スペースで区切らないで文を一気に入力しても誤りを訂正しつつ変換してくれる、という話である。

手法は(少なくとも日本人にとっては)常識的なアルゴリズムで、こういうタスクだったらひとまずこうするよな、という感じで、ローマ字の入力から変換後の単語列を作るとき、曖昧性を許容してグラフを作ればよいのだが、先頭から最長一致で音節候補を切り出し、編集距離で類似する音節を取得してグラフを作成する(グラフが巨大になって動的計画法を用いても探索が難しいので枝刈りしておく)、というアイデア。誤りが含まれていてもグラフの中に正しい候補が含まれるので、あとは言語モデルn-gram)で正しい変換候補が取得できる、というわけである(2文字までの誤りなら訂正できる)。

実験設定に多少疑問が残る(人工データでテストしている)し、手法に特に驚きはない(グラフの構築のところに改良の余地がある)のだが、ちゃんと動くのを示したところがよいかなと思うし、入力メソッドの論文が国際会議で少ないので、こうやって発表しておいてもらえるのは大変(入力メソッドに関心がある者として)ありがたい。

今年前期の研究室でのイベントはこれで終了。4月からの3ヶ月、かなりハードなスケジュールだったと思うが、みんながんばった。特に新入生の人たちは、自然言語処理の知識がゼロのところからよく食らいついてきたものだと思う。インターンシップに行く人たち、研究室で研究する人たち、いずれも夏休みを終えたら一回り成長しているのが楽しみである。