そろそろ胃が疲れてきたので、朝ご飯を食べるのをスキップ (朝起きるのが遅かったとも言う)。そもそも朝起きた瞬間から、胃にまだなにかある感じだし……。カレーがおいしかったので、つい食べ過ぎたかな。微妙な時間だったので1人で autorickshaw に乗ってみるが、予約のとき tuktuk か? と聞き返される。1人で乗るとどこに連れて行かれるか最初は怖かったが、4日目ともなると、通る道を知っている (ホテルから会場の IIT へは1通りの行き方しかない) ので、さすがに違ったら分かるし、ムンバイはハイデラバードと比べてかなり安全な町なので、そんなに気にならないようになった。ここでは、みんなのどかに暮らしている気がする。
午前中のセッションは構文解析に出てみる。
- Ji Ma, Tong Xiao, Jing Bo Zhu and Fei Liang Ren. Easy-First Chinese POS Tagging and Dependency Parsing. COLING 2012.
easy-first というのは、解きやすい (曖昧性のない) ところから決定的に解析することで、曖昧性のある悩ましい部分の解析をするときに、他の場所の構造がこうなっているからこちらの解釈だ、というような推論ができる手法で、これまで英語の依存構造解析では (Goldberg and Elhadad 2010) が提案されてきたので、中国語でも easy-first な依存構造解析を提案した、というのが提案手法。もう一つのポイントは依存構造解析と品詞付与を同時に解析するというもので、品詞付与に関する損失関数と依存構造解析に関する損失関数という複数の損失関数を用いて最適化している。複数の目的関数での最適化といえば Kevin さんの今年の
- Kevin Duh, Katsuhito Sudoh, Xianchao Wu, Hajime Tsukada and Masaaki Nagata. Learning to Translate with Multiple Objectives. ACL 2012.
が思い浮かぶが、本研究での最適化はちょっといまいちな気がする (そこが目的ではないので、よいのかもしれないが)。会場から「英語ではどうか?」という質問があったが、品詞の曖昧性が高く依存構造解析と同時にやるメリットが大きい中国語と違って、英語はあまり伸びしろがないようで、試してはいないが同時に学習しても中国語ほど改善は見られないのではないか、とのこと。確かにそれはそうかもしれない。
機械翻訳のセッションに移動して、
- Feifei Zhai, Jajun Zhang, Yu Zhou and Chengqing Zong. Tree-Based Translation without Using Parse Trees. COLING 2012.
を聞く。これもおもしろい。木を用いた翻訳では構文木を用いることが多いが、構文木は単語アライメントを参照しないので、必ずしも翻訳に適した単位の木が取れるとは限らない。そこで、本手法では構文解析を行なわず、単語アライメントからのみ木構造を導出する手法を提案する。EM を使って同期木置換文法のルールを獲得するのだが、計算量的に厳しいのでヒューリスティックスを導入する。評価は string-to-tree の統語ベース統計的機械翻訳で行なって、良好な結果であったと。質疑でなんで string-to-tree なのか? という質問があったが、tree-to-{string,tree} をするには入力側が木構造になっていなければならないので、教師なしに木構造を導出している本手法では難しい、とのことであった。木を用いた統計的機械翻訳は、使う構文解析の精度と性格にかなり依存するので、ちゃんと扱うデータが解析できるかどうかをまず調べないとダメだという話なのだが、単言語での解析がうまくいかなくても、構文解析によらない方法も試すことができる、ということかな。構文解析を使わない方法はこの研究に限らず階層的フレーズを用いるものも含めて前からたくさんあるので、できれば構文解析を使う手法と比較してほしかったのだけど。(質疑で「教師なし構文解析を行なう手法はいろいろ提案されていて、ツールも公開されているので、そういうのを適用して実験してみたらどうか」というコメントもあり、それもそうかと思った)
昼休みはランチを食べながらそのあたりの人に適当に話しかける。IIT の学生さんとか、メルボルン大学の学生さんとか。自分は教員だと言うと驚かれるのだが、アジア人だから若く見えるのだろうか……。みなさんいったん就職したけど修士に戻ってきた、という人ばかりで、やっぱり研究がしたくて大学院に来ている人は話していて全然違うものがあって楽しい。日本もそういう多様なパスがあるとよいのだけど。(NAIST はそういう意味で日本の中では理想的な大学の一つだと思う)
午後のセッションは意味論のところへ。まず1本目は
- Luan Nguyen, Marten Van Shijndel and William Shuler. Accurate Unbounded Dependency Recovery using Generalized Categorial Grammars. COLING 2012.
こちらは組み合わせ範疇文法 (CCG) の変種を提案していて、CCG と比べてある種のカテゴリを同一のカテゴリと見なすかどうかが違っていて、今回の提案手法のほうが粗いカテゴリを使っているのであるが、Penn Treebank をあのテートして、たぶん新しい付け方のほうがいいんじゃないか、というような結論であった。窪田さんの論文に言及されていたりして、おおっ、と思ったりする。これが COLING 2012 のベストペーパーだったようで、確かにしっかりした研究で言語学的な基盤もありおもしろいとは思ったが、ベストペーパーかと言われるとどうだろう (だいたいそういうものかもしれないが)。これで CCG が大流行したりしたら、ベストペーパーも意味があるものだと思うけど……。
2本目は
- Ivan Titov and Alexandre Klementiev. Semi-Supervised Semantic Role Labeling: Approaching from an Unsupervised Perspective. COLING 2012.
第一著者ではなく第二著者の Alex が発表していた (MSR のインターンの同期だった)。半教師あり意味役割付与というので、教師あり意味役割付与に大規模データを追加してさらによくする話 (これは実用上意味がある) かと思ったら、教師なし意味役割付与に少しだけラベルつきデータを加えて、データが少ない場合の教師あり意味役割付与より優れた解析器を作る、という内容であった (タイトルをちゃんと読むとそうなのだが)。手法自体に問題があるわけではないのだが、数百文アノテートするだけで教師あり意味役割付与に抜かれてしまうので、実用上どうなんだろう。ちなみに、教師なし意味役割付与もF値で86%あるので、50文つけたら0.5ポイント上がると言われても、50文だけつけてアノテーションを止めるくらいなら、500文つけて普通に教師あり学習したらいいわけで、この手法が嬉しい状況が不明である。
3本目は kazuo-h さんによる
- Kazuo Hara, Ikumi Suzuki, Masashi Shimbo and Yuji Matsumoto. Walk-Based Computation of Contextual Word Similarity. COLING 2012.
の発表。最近どういう研究をされているのか知らなかったが、この研究をされていたのか。単語の類似度を測るとき、文脈としてよく bag-of-words が用いられるが、これの拡張として bag-of-ngrams があり、bag-of-ngrams では n 個の連続する単語を情報として用いることができるが、離れたところにある依存関係を考慮できないという問題があった。そこで本研究では文を有向グラフとして表現し (ここでは dependency graph を用いたが、argument structure graph でもよい)、対象とする単語のノードから出発してランダムにグラフ上のエッジを歩くパスを情報として用いる (bag-of-paths?)、という手法を提案。bag-of-words + bag-of-ngrams と比較して優れた性能である、とのこと。質疑ではギャップを許すようなパスを使いたいということを今後の予定で言っていたのと、bag-of-words と組み合わせないと性能が出ないのだが、なぜそうなのかということを知りたいとおっしゃっていたが、後者に関しては、語義曖昧性解消タスク (特に Senseval-3 Lexical Sample Task) の性質ではないかと思った。素性が非常に疎なので、(あまり入れたくない、あるいは頼りたくないけど) bag-of-words を入れないと全然他の事例と類似度を計算することができないのである。
COLING 最後のセッションは、no show が続出してほとんど聞けない。以前 (2006年?) 松本研に短期留学していた Veselin がいたので、最近どうよ? という話をしたりする。Cornell を卒業してからポスドクとして Johns Hopkins に行っていたのか。去年もポートランドで会ったのだが、そういえばそのときに聞いたような気がする (が、Johns Hopkins に特別な興味がなかったので忘れてしまっていた)。
やっている発表を見つけて潜り込んだ以下の研究、着想がおもしろい。
- Ivan Vulic and Marie-Francine Moens. Sub-corpora Sampling with an Application to Bilingual Lexicon Extraction. COLING 2012.
対訳辞書構築をするには対訳コーパスから抽出するのが普通なのだが、手許にある対訳コーパスをどこまで活用できるか、という問題を考えたとき、全体の大きなコーパスではなく、分割して小さくした対訳コーパスで抽出する、という逆転の発想。小さいコーパスのほうが単語の曖昧性が低いので、むしろ頑健に抽出できるという仮定である。それでも頻度が高く曖昧性の高い単語はうまく抽出できていないようだが、逆にそういう頻度の高い対訳対は人手でもなんとかなるので、低頻度の専門用語がこういう手法で抽出できるかもしれない、というのは興味深かった。
クロージングでは大講堂に集まって反省会と招待講演 (インドの情報科学の発展について?)。どんな批判でもウェルカムですよ!という運営の言葉に、「誰も外に一切食べに行かずランチできたので、ご飯はよかった」「初日には入手できなかったが、最終日に印刷されたアブストラクトが入手できてよかった」「何時間もかけてバスに乗って遠足に行ったが、ありえないような体験をさせてもらって一生忘れられない経験になった」など、みなさん大人の対応である。いろいろと振り回された感はあるが、終わってみると過去のものであり、よい思い出である。"COLING is over." で締められた COLING であるが、よくも悪くも今回の COLING 2012 は後世まで語り継がれる会議となるだろう。
次回の COLING 2014 (2年おき) はアイルランドのダブリン開催。ギネスビールに惹かれてというわけではないが、他の会議と違って自然言語処理の広範な話題をカバーしていて、いろんな人が集まる会議として研究的には大変楽しめた会議であったので、ぜひ次回もなにか研究発表できるように投稿してダブリンに行きたいなと思った。
夜は空港近くのレストランまで最後の晩餐に行く人たちを尻目に ryu-i さんと [twitter:@keiskS] くんの3人でホテルに帰り、地味に夕食。ホテルで夕食を食べるのは初めてだが、もはや外に行く気力がない。最後の夜なので、夕食後に部屋に戻って絵はがきを書く (10人分)。明日のワークショップ終了後、飛行機が出るまで3時間しかないので、全部書いておかないと間に合わないのである。毎回国際会議に来ると絵はがきを書くことにしているのだが、これを書いていると「ああ、もう日本に帰るのだなぁ」と思う。
絵はがきを書き終えると [twitter:@yotarow] くんと [twitter:@tomo_wb] くんがバーに呼んでくれたので、松本研 OB・現役で最後のバー。やはり松本研は研究環境として申し分ないところだなと思ったりする。こういう環境を作り、維持するのは並大抵ではないと思うが、地道に研究を積み重ねていこう。