言語処理学会2日目

昨日は1313という大教室でチュートリアルがあり、学部1,2年のころの鬱々としたころを思い出してちょっと沈んでいたが、今日は会場が学部後期課程のころの教室だったので、なんか懐かしかった。

午前は形態素構文解析のセッションに出る。機械翻訳のセッションにも興味はあったのだが、最近仮名漢字変換器を作っているので形態素解析の話を追っかけてみようかと思ったのである。

形態素解析に依存しない日本語係り受け解析」という話があって、どういうことかと思っていたら、どうも文節区切りまで与えたらあとは文字の表記情報だけで係り受けをするようなのだが、結局は taku さんが質問で確認していたが、CaboCha の解析結果を訓練事例にしているので、CaboCha の結果を丸覚えしているんじゃないかという気がする(そういうわけで、いくらデータを追加しても CaboCha の精度を超えるのは無理なのではないかと思う)。

あと最初 CaboCha の結果で依存構造解析した結果から学習し、次にそれでトレーニングした解析器で解析した結果を訓練事例にして学習し、みたいな(コンパイラを最初にコンパイルするにはどうするか、みたいな意味での)ブートストラップすれば CaboCha には依存しないのでは、とも思ったが、結局文節区切りは YamCha で解析するとなると形態素解析の結果までは(YamCha で区切るなら)使うし、完全に形態素解析を使わないでできるのかな? (YamCha も同じ方針で表層形だけを見て文節区切りをつけるような文節解析器を作れば実現できそうだが)

お昼は tkng さんと takahi-i さんに遭遇したので3人でご飯。tkng さんの転機について話を伺う。そうこうしていると hisami さんが後ろを通りがかったので、しばらくしてから合流して4人で2時間くらい話す。確かに仮名漢字変換を統計的なモデルにしたらやりたいことはいろいろあるかもな、という気はするのだが、いかんせん仮名漢字変換って日本語とせいぜい中国語しか射程範囲がないので、やっぱり自分が使って便利だから作る、という以外にはあまり使えないかなあ。noisy channel model を使ったテキストフィルタとして、もっと一般的にある入力を入れたら別の入力に変換してくれるような処理(言語モデル音声認識とか機械翻訳とか仮名漢字変換とかいろんなアプリケーションで共通にできる)が簡単にできたらいいと思うのだが、音声認識で言ったら音響モデル、機械翻訳で言ったら翻訳モデル、仮名漢字変換で言ったら仮名漢字モデルの部分はアプリケーションごとに作り込まないといけないところなので、そうは行かないだろうけど……

ポスターセッション、ものすごく人だかり。もっと1部屋の件数を減らすか、広い部屋でやればいいと思うのだが、人が多すぎて疲れてしまい、ざっと一巡りして一休み。同じく一休みしていた kazuma-t さんから話を聞く。ものすごく知りたかったことをいろいろ教えてくれたので、非常に助かる。まあ、同じようにやってもおもしろくないので、あまり凝らないでいいところは同じようにやって、凝りたいところはいろいろ試してみようと思っている。

最近はデータもアルゴリズムも整備されてきたし、計算機資源も富豪的に使えるようになったので、いま手許にある道具立てだけかなり安直に実装しても、数年前の商用のものと同程度の変換精度くらいまでは行けるのかな? それよりは入力インタフェースとかパーソナライズとかそのあたりの細かい使い勝手を作り込むのがクリティカルかも。

午後は情報抽出のセッションに出る。チュートリアルでも聞いたが鈴木潤さんの半教師あり学習の話を聞きたかったのである。大規模データでもうまく行くことを実証したってのは画期的な話だが、スケーラビリティの問題があるってことは実際に大規模データ使っている人でないとなかなか自然言語処理の研究者の人でも理解してくれないので、トークの中で強調していたのが印象的であった。結局のところは少量のデータで教師あり学習だけするよりは、大規模なタグなしデータを追加したら性能は単調増加するので夢があるという話なのだが、どなたかが質問していたように、タグ付きデータがどれくらいあればいいのかという疑問が残る。

去年から弱(半)教師あり学習をぼちぼち研究しているのだが、タグ付きデータがたとえば10個しかないという状況でこれを1,000個、10,000個にするという話と、40,000個あるところでこれを400,000個にするという話は応用的にはだいぶ違うし、最初のシードが少なければ少ないほど意味ドリフト(最初に与えた正解事例とは違う事例をどんどん獲得してしまうルールを学習する)が起こりやすくなるので、できるだけ少ないデータでうまく動くという話題もなにか決定的なことが分かればいいのだが……(という話を20日に発表する)。

そんなこと言っても現実的には事例数が10なんてことはなくて、必要な精度が保証されるなら3,000文でも人手でタグつければいいから応用上は問題ない、という話も分かるのだが、アプリケーションによってはユーザが1回か2回しか入れてくれない入力からなにをしたいのか推測して呈示する(もちろん継続的に使ってくれるならどんどん精度はよくできるが、最初の数回の精度が悪いとそもそも使ってくれなくなる)、なんてこともあるので、タスク依存ではあるが、こういう研究も意味あるだろうと考えている。

夜は yotaro-w くんたち同期と食事。最初食事は渋谷だと思っていたので自然言語処理若手の会の懇親会にも1時間遅れて行くつもりだったが、銀座に移動してカレー食べていたので、途中からこれは間に合わないと思って若手の会に行くのは断念。行きたかったが仕方ない(幹事をしてくれた O 野原くんと NAIST の学生の取りまとめをしてくれた shimpei-m くんには申し訳ない)。代わりに明日の懇親会に行こう。ちなみに言語処理学会の懇親会、M1 のときもお金だけ払って(確かスライドを作るためにいっぱいいっぱいで)欠席したのであった。