NLP2013 2日目: 研究者は集めたほうが相乗効果がある

朝、栄駅で [twitter:@yotarow] くんと遭遇。名古屋は交通案内が極めて不親切に感じる。案内通り進んでいくと最終的には到達できるのだが、目的地の50mくらい近くになると突然案内が消える (案内板はあるが、行きたいところ以外の行き先への案内しか書かれていない) ので、本当にそこを直進していいのか確信が持てず、目的地の近くをうろうろしてしまうのである。地下鉄のホームでも、なぜかホームなのにあらゆる案内板が別の路線を示しておらず、違うホームに下りてしまったかと誤解してしまうのだが (よくよく壁を見ると書いてある)、名古屋の人は「いまいるところがどこか」という情報より「これからどこに行くか」という情報のほうが重要なのだろうか?

9時からのセッションは「評判・感情解析」で hirotsugu-e くんが複雑な感情の同時推定に関する発表。昨日みんなあんなにしこたま飲んでいたので人が少ないかと思いきや、けっこう集まっていた。

  • 江崎大嗣, 小町守, 松本裕治. 感情軸における感情極性制約を用いたマルチラベル感情推定. NLP2013.

11時から招待論文セッション。このセッションは今年から始まった試みだそうで、「自然言語処理」という言語処理学会の論文誌に投稿された論文に出す論文賞の数を増やした上で、論文賞に選ばれた研究の口頭発表を plenary session として話してもらう、というものだそうだ。今回論文賞に選ばれたのは

の3本 (今村さんの論文はまだ刊行後3カ月経っていないのでダウンロードできない) で、鍛治さんの論文が最優秀論文賞である。個人的にも鍛治さんの論文がいちばんおもしろいと思った。形態素解析でも、その言語の辞書があればできるようなことはだいぶやり尽されてきて、大きく残っているのは未知語の問題であるが、未知語にも全く手がかりがないような未知語もあれば、他の言語では存在する単語の翻字だったり、略語や頭字語だったり、ある意味で既知語から派生したような未知語もあって、後者は単語がどのように産まれているかをうまくモデル化することができれば組み込むことができるので、こういうのを扱うのは興味深い研究である (たぶん中国語でも同じような問題が存在する)。

今村さんの研究は日本語学習者支援ということで自分的にも興味があるのだが、id:hitoshi_ni さんがすばらしい解説を書かれているので、ここでは割愛。一言だけ追記しておくと、日本語学習者の誤り訂正は「助詞誤り訂正」までタスクを絞り込む (かつ助詞誤り以外の誤りは全部訂正されている、という問題設定) と、並べ替えなしの統計的機械翻訳とみなすことができるが、一般的な文法誤り訂正においては実は「局所的な並べ替えを許すフレーズベース統計的機械翻訳」と定式化したほうが経験的によいようである。局所的な並べ替え自身も本来フレーズ (単語列) の中で行うことができるので、適切にフレーズが抽出されていれば完全に並べ替えなし (monotone) で定式化できそうなのだが、[twitter:@tomo_wb] くんが実験してくれたところ、Moses を用いた日本語学習者の誤り訂正手法では並べ替えありモデルのほうが性能が高かった記憶がある。もちろん、大幅な書き換えをできるだけしないように添削されている、という背景もあるが、少し制約を緩和したほうがよい、というのは個人的にはおもしろい知見であった。

お昼は若手の会のランチミーティング。今回も受付で待っていて全員集合できなかったが、昨日の教訓を活かして電話してみたら、やはり直接現地に向かっていた人がいたようで、無事合流できてよかった。名古屋大出身の M 崎さんの案内で グランピアット山手通り店 へ。駆け足だったが、話したい話題は全部話せたかな?

ランチミーティングのあと、学会の総会へ。いつも総会はほとんど資料の読み上げと拍手による承認ばかりであまりパッとしないので、あまり期待しておらず、ちょっと遅れてしまったのだが、なにやら香ばしいことになっていたようで、今年の総会のハイライトは見ることができた気がする。こういうことはときどきあるらしいが、むしろちゃんと言葉を選んで毅然と応対されていた徳永先生はすごいと思う。

午後の招待講演は阪大の金水先生による「役割語研究の現在」。

役割語とはたとえぱ「あんたみたいな男、あたし嫌いじゃないわよ」のような文で使われる「あたし」という一人称のことで、たぶんみなさんマツコデラックス風の人、あるいは少なくとも若い女性を思い浮かべるのではないかと思うが、このように「ある特定の言葉遣い、語彙、語法、を聞くと特定の人物像を思い浮かべることができるとき、あるいは特定の人物像を提示されると、その人物がいかにも使いそうな言葉遣いを思い浮かべることができるような語」のことを役割語と言うそうだ。

役割語は日本語のネイティブスピーカーだと自然に使えるらしいのだが、海外にいる日本語学習者はだいたい (習熟度にもよるが) 50%程度しか使い分けができないそうで、そもそも日本語教育でこのような人称による使い分けを教えることもないらしく、興味深いテーマのようである。ちなみに、日本語ネイティブであっても、子どもに対して役割語が含まれる文を読み上げてそれぞれの人物像を答えさせる実験では、3歳では区別できず、5歳ではほとんどが区別できるようになるそうで、3歳から5歳までの間で役割語の使い分けが (教えたわけでもないのに) 獲得されるらしい。

役割語自身は実際にそのように話されているというものではなく、共同体で繰り返し使われて定着する、想像としての用法 (こういうタイプの人はこういうふうに話しそうだ、というステレオタイプとして強化される) だというのはおもしろい。あとスライドで漫画や図版が多用されていて、聞いていて楽しかった。文学作品など創作における話し方というのは実際の話し方と必ずしも一致していないが、逆に言うと (当時の話し方そのものが分かるわけではないが) どのように話されるべきか、ということを窺うことができるので、興味深い。

午後は ryosuke-m くんの有害な隠語の自動獲得に関するポスター発表。

  • 三谷亮介, 小町守, 松本裕治, 隅田飛鳥, 服部元, 小野智弘. 有害性スコアリングによるWebテキストにおける隠語の発見. NLP2013.

最近国際会議では横長のポスターが増えていて、なんで横長? と思ったのだが、説明人が複数人でパラレルに説明するときは横長のほうが話しやすいなぁ。日本では縦長のポスターの什器が主流なので、恐らく言語処理でも横長のポスターになることはしばらくなさそうだが、どうせ縦長にしても下の方は遠くから読みにくいので、横長のほうが合理的な気がする。スペースの有効活用という意味では縦長のほうが小さい部屋にたくさん押し込めるのでいいのかもしれないが……。

夕方は懇親会。ブラッスリー ポール・ボキューズ ラ・メゾン。不勉強なものでよく知らなかったのだが、フランス料理ではとても有名なお店らしく、先日名古屋大学セミナーをしたときごちそうしていただいたのだが、そのときもご飯・お酒ともにおいしかった印象しかないので、この値段 (学生4,000円、一般6,000円) で入れるなら、と懇親会に真っ先に申し込んだのである (いつも懇親会は味に比べると割高感があるのだが、今回の懇親会は恐らく割安)。今回もものすごい勢いでご飯とお酒がなくなったらしい (笑) が、それも納得。あまりワインに強くないにも関わらずシャンパンやワインをたくさん飲んでしまい、何を話したのかほとんど記憶していないのだが、ryu-i さんが息子さんの写真を見せてくれたのだけはしっかり覚えている :) 

そうそう、[twitter:@taku910] さんが、論文の査読をしていて最近思うこととして、ちゃんとどういう問題を解きたいのかが分かるように書いてほしい、とおっしゃっていたのが記憶に残った。手法はシンプルでもいいが、問題意識が分かるように書いてほしいと。企業だと現実の問題からボトムアップに研究がスタートするが、大学だと往々にして手法ありきでその手法のよさを言うためにトップダウンにタスクが設定されていることがあり、その場合はうまく書かれていないととても読みづらいとのこと。確かに一昨日の日記でも書いたように、言語処理研究では何を解くか、どうしてそれをそのように解くかが重要であって、実際の細かいところはあまり重要ではないことが多い (もちろん再現性の確保のためには大事なので、たとえば論文誌にするときはしっかり書くけど)。

自分も最近努めて手法ドリブンにならないようにしており、「あっ」と思うようなことは少ないかもしれないが、解くべき問題を納得度の高い手法で解く、ということは意識している。納得度の高い手法というのが、「なるほど、これが使えるのか」と思うものだったり、あるいは「この手法は他のタスクにも使えそうだぞ」と思わせるようなものだったらよいのだが、まだそこまでピッタリはまるような研究はできてないかなぁ。

懇親会終了後、三々五々解散っぽかったので、Hisami さん、森さん、関根さんと4人で懇親会と同じ建物の1つ上の階のBREIZH Cafe Creperie 名古屋タワーズプラザ店 でお茶とクレープ。他愛もない話ばかりで、とても楽しかった ;)

連日いろんな人と話して刺激になる。こうやって集まることができる場があるというのはすばらしいことである。今年も去年に劣らずホスピタリティに溢れる大会であり、プログラム委員・ローカルオーガナイザの方々に感謝するばかりである。