宮島でおいしいものをつまみぐい

情報処理学会第223回自然言語処理研究会のため、5時起きで広島(宮島)へ。飛行機(岩国空港)を使うのがもっとも早く、かつ3日前までに予約すれば新幹線よりも安いようだが、直前までスケジュールが確定しなかったので、仕方ない。(ちなみに研究会のサイトが大幅リニューアルされたので、以前のサイトしか見たことない人は、一度訪れてみてほしい)

6:50東京発ののぞみで広島へ。9時過ぎに京都に着いたが、これでまだ半分。京都はのぞみで行くとずいぶん近い印象があるが、広島は遠い……。(電車の中で仕事をするので、そこまで苦痛ではないが、空気が悪い気がする)

広島駅で在来線に乗り換え、宮島口まで。宮島口で幹事団と(たまたま)合流し、フェリーで宮島へ。数年前言語処理学会年次大会で広島に来たとき宮島観光はしなかったので、宮島に来るのは人生初めてである。

宮島に着いて会場(広島経済大学セミナーハウス)を探すと、宮島の一等地も一等地、フェリー乗り場から徒歩3分ほどで、海沿いの真新しい建物。厳島神社も窓から眺められるし、すごい場所である。広島市立大の言語処理学会も、伝説に残るほどホスピタリティの高い学会であったが、宮島の NL 研も NL 研史上に残るクオリティである。

今日は日帰りなので先にお土産を入手すべく、お出かけ。焼き牡蠣を食べたり、揚げもみじを食べたり、短時間ではあるが、割と楽しい。惜しむらくは、もう少し時間があればよかったのだが、宮島ビールはさすがに飲めなかった。

研究会場に到着すると、動画配信のセッティングが既に始まっていたが、どうやらあるべきケーブルが一本ないらしい。基本的にはセットで郵送しているのでそういうことはないはずだが、どうも自分が一回ワークショップ準備のために開梱したとき、出してしまったようだ(そもそも使う必要がなかった機材なので、開けるべきではなかった)。そのケーブルがないと手も足も出ないので、思案していたら、[twitter:@shin_kan0] くんが(フェリーに乗って、宮島口まで往復)買いに行ってくれるそうで、申し訳ない。自分はというと、宮島の中の唯一の電気屋まで行ってみたが、日曜日は休みのようで、とぼとぼと帰ってくる。最終的には宮島口の隣の廿日市まで行って(往復2時間かけて)買ってきてくれたようで、本当に頭が下がる……。

発表的には

  • 塘優旗, 小町守. 部分的アノテーションを利用したCRFによる日本語学習者文の単語分割.

を見届けることができてよかった。このタスク、[twitter:tkyf_7] くんが修士論文で取り組んでくれたタスクで、そのときはいろいろ試したのにどうやってもうまくいく方法が見つからず、諦めたのだが、今年の頭くらいから [twitter:@uyki26tomo] くんがさらにいろいろ試してくれて、ようやくうまくいく設定が見つかったのである。

詳しくは原稿を見ていただければ、と思うのだが、[twitter:@chokkanorg] さんの質問で「どうしてうまく行くのか、原理がよく分からない。誤りの一般化はできるのか」というものがあって、それについては自分も興味がある。言い換えると、文字に基づく素性テンプレートで単語分割するので、訓練データに出現する誤りは正しく分割できるようになる、ということなのだが、どういう誤りが解けるようになっているのか?ということである。

事例については2人でけっこうアノテーションを確認したり(アノテーション仕様の確認で1ヶ月以上かかった)、誤り分析をしたりしたのだが、どうも解けるようになっているのは長音や促音に関する部分で、確かに日本語学習者は長音や促音を間違えやすい(不足しやすい)という現象が知られているので、それもそうか、という気がする(全数を見ているわけではないので、違うかもしれないが)。

ただ、それは数万文の学習者コーパスから抽出・学習しなければならない誤りパターンか?と言われると、必ずしもそうではない気がしていて、長音や促音が不足しがちな場所は言語学的分析によって分かるので、このようにコーパスに基づくアプローチ(教師あり学習)をする必要はなく、起こりうるところを自動で検出・パターンを展開して単語分割のラティスに加える、という手法が使える。必要があれば EM アルゴリズムなど教師なしの手法でコストを学習することもできるし、そうした方が添削のついていないデータも活用できるので、より妥当かもしれない。

もっとクリティカルな問題としては、人間で単語分割を付与するにしても、これ以上一致率を上げるのは厳しいところまで来ていて、素の MeCab(ただし UniDic)でも(人間が迷わないところは)かなり正確に分割することができ、MeCab に勝つのが至難の技、という……。

とはいえ、体感的には形態素解析レイヤーの間違いが、上位のアプリケーション(例えば誤り検出・訂正)に影響を与えている、というのは事実なので、なんとか手当てしたいのだが、日本語学習者のテキスト処理においては、単語分割だけを取り出しても意味がない、ということなのかもしれない。(ひらがなで書かれる単語が多く、間違って格助詞が含まれていると思われて解析をミスする、みたいなのは、単語分割誤りとして見たら確かに1つの誤りだが、解析誤りの中ではミスしてほしくない誤りなのである)

他には shindo さんの

がおもしろかった。自然言語処理は画像処理と違って階層構造的なものがそこまで明らかではない(あるいは、人間が見た階層構造と機械が見る階層構造が違い、人間がそれなりに妥当性のある離散的な階層構造を設計できる)ので、畳み込みニューラルネットワークが有効そうな場面がそんなになさそうに思っていたのだが、複単語表現の認識に使える、というのは納得。こういう研究もやってみたいものである。

招待講演まで聞いて、そのままフェリーで宮島口まで戻り、ダッシュで広島行きの電車に乗って新幹線で帰宅。現地滞在時間4時間、移動時間14時間という1日だったが、娘が大きくなったら旅行で来てみたいな。