CoNLL-2011 初日: 人間の言語理解に自然言語処理が貢献できること

ACL の本会議は終了したので会議後のワークショップの日。自分は Conference on Computational Natural Language Learning ( CoNLL-2011 ) という会議に参加。

本当は他のワークショップもぶらぶらと出ておもしろそうなのがあったら聞いてみようかと思っていたのだが、どうも今回は会場がどこも狭いようで、登録した人のぶんしか座席がないようなので、大人しく最初から CoNLL に参加。

CoNLL は今回15回目で、それなりに伝統もある会議なのだが、今回は投稿数82件で採択数はそれぞれ口頭が13件、ポスターが14件、合わせると33%で、中堅どころの会議になっている。もう一つ元々は同じくらいの規模だった EMNLP (機械学習や統計を用いた自然言語処理の国際会議) という会議は今回600件以上の投稿数で、今年の採択率は24%だったらしいのだが、あちらはもはや投稿件数的にも採択率的にもトップカンファレンスになってしまっている感がある。CoNLL はワークショップだと思うと大きいが、会議だと思うと小さく、微妙な立ち位置なのかもしれず。まあ、子どもの言語習得のモデル化とか、人間の言語の文法の教師なし自動獲得とか、"Natural Language Learning" 的な論文に重きが置かれているので、それはそれで特徴的なので、おもしろくはあるけど。

最初のセッションのModeling Syntactic Context Improves Morphological Segmentationはsyntacticと言う割には品詞の情報を使っているだけなのでちょっと拍子抜けしたが、ベイズ的な生成モデルで分かち書きを定式化し、品詞のタイプの情報を生成モデルに入れると分かち書きがうまく行く、という話。そりゃまあそうだろう、という感じだが、他にも接頭辞や接尾辞を細かく生成モデルに組み込んだりしている入れ方が参考になった。

次の発表はそもそも単著なのにその人が発表しないというなんだかよく分からない状態。ビザの関係とか、第一著者が妊娠したので来られないとかで、共著者が発表するようなケースはときどきある(今回の会議でも2割くらいの発表がそうだった)が……。

3つ目の発表はPunctuation: Making a Point in Unsupervised Dependency Parsingで、Spitkovskyによる研究。彼の研究はHTML タグを使って教師なし係り受け解析でも紹介したが、今回は HTML タグではなくピリオドとかカンマを使って教師なし係り受け解析をする、という話。HTML タグはブログでも10%程度しかないのに対し、ピリオドやカンマだと Wall Street Journal では7割くらいあるそうで、もっと汎用的に使えるものだそうだ。

結果から先に言うと、HTML タグよりピリオドとかカンマのほうが教師なし係り受け解析に効果が高いことが分かったとのこと。へーへー。教師なし係り受け解析も多言語解析では役に立つ技術だし、機会があったら作ってみたいなぁ。

4つ目はModeling Infant Word Segmentation。子どもが言語習得する過程、特に単語の分割をモデル化したという研究。子どもが言語を獲得するとき、入力としては音が入ってくる、つまり切れ目が分からない音声に対して、どこが切れ目(単語)か学習しなければならないという問題で、なかなかおもしろい。アルゴリズム的には辞書のサイズ0からスタートし、入力から辞書中の単語にマッチするものを貪欲的に分割し、分割できなかった入力列を辞書に追加する、というステップを繰り返す、という単純なもの。away が a way に切れてしまったり、behave が be have に切れてしまったり (ただこれは子どもも behave が1単語だと分からず "I am have!" と言ったりするらしい)、あと発音が同じな tulips が two lips と切れてしまったり (便宜的に対応する単語で書いているが、入力・出力とも音素列)、などなど。教師なし形態素解析は最近生成モデルで研究している人たくさんいるので、そういうのとの違いの比較もほしかったかな〜

5つ目はWord Segmentation as General Chunking。これも自動単語分割に関する手法で、単語を切るとき単語の中はエントロピーが低く(単語らしい確率が高い)、単語の切れ目ではエントロピーが高い、という直観を用いて分割するという話。前の発表の人も言っていたが、英語は書き言葉だと空白を入れるので空白で分割すればいいじゃん、と考える人が多いのだが、日本語や中国語では単語の境界に空白は入れないし、そもそも音声言語は連続した音声が入ってくるので、単に空白で分割すればいい、というものではない (曖昧性が高い場合は音声でもポーズを入れたりするが)。こういうふうに、切れ目が分からないところで分割しながらラベルをつける、という処理は日本語の言語処理やっている人にはお手の物なので、もっと知見を活用できたらいいのになぁ、と思う。

午前最後のセッションはBruce Hayesさんによる招待講演。記述言語学・理論言語学に対する自然言語処理の応用と貢献について話してくれる。音声学で、ある表現(たとえば音素列)がその言語でどれくらい許容可能か、存在する表現なら可能であることは明らかだが、存在しない表現の間でも「この発音は英語ではありえない」とか「この発音はあの発音と比べると、まだ単語の中で使われていてもおかしくない」といった判断ができる、という現象がある。こういう現象の分析で、どういう条件がどれくらい満たされたとき人間はおかしいと感じるか、というような判断を、機械学習 (今回使ったのは最大エントロピー法) を用いて分析することができ、実際こういうツールが使えるのは言語学にとってありがたい、という話。

Hayes さんは UCLA の言語学の教授なのだが、機械学習で困っていると「(ジョンズホプキンス大学の) Jason Eisner がやってきてたちどころに解決してくれた」という話で、さすがだと思った (笑)　やっぱり言語学でも (頭の中で考えてどうこう言うのではなく、かといってコーパスから頻度を計算してあれこれするだけでもなく) もっと機械学習とか統計的自然言語処理のツールを使って分析できることはあると思うし、そういう条件 (素性) にどういうものがあって、それぞれどれくらい強い制約 (重み) かということはデータから自動で求まるので、もっと活用して分析できればいいと思うし、使いやすい形で提供し、困っている人がいたら (文字通り) 飛んで行くのも大事だなぁと思った。

お昼は @hidekishima さんらと川沿いのレストランへ。NIST (そういえば NAIST は NIST と名前が被るので、よく分からないが A を入れることにしたらしい。NAra Institute of Science and Technology の略だそうだが、A はさすがに強引なような……) の方がいたので道すがら評価タスクについてお伺いしたり。オーガナイザーはいろいろと大変なようである。国際会議の参加も、アメリカ国内で開催される参加ならできるが、海外の国際会議だと旅費的にも手続き的にもなかなか参加できないとか。

午後は @smly くんのポスター。ACL 本会議のポスターと違って、1つの部屋でやるのはいいのだが、ちょっと隣のポスターとの間隔が狭くて窮屈。自分も近くに立って援護射撃したりしたが、2人立っているとスペース的に共著者に見えないので、混んできたら離れざるをえず、微妙なところであった。会場の入り口近くのスペースしか使っていなかったが、机は明らかに余っていたし、もう少し広くレイアウトしてほしかったなぁ。

夜は @smly くんのお疲れさま会で、松本先生と3人で川沿いをぶらついて、一番人が入っていたMcCormick & Schmick's Seafood Restaurantsへ。ポートランドは海沿いなのでシーフードが(比較的)おいしいらしいが、確かにまぁ悪くなかったかな (値段相応ではあるが)。でもやっぱり食に関しては日本以上のところはないな〜。あと、中がいっぱいだったので、外で食べたが眺めはよかった。@smly くん、お疲れさまでした！