時間をかけてデータを見るという仕事のおもしろさ

最近は夜9時に帰っていて、1時間ばかり電話したりご飯食べたりお風呂入ったりしていると、日付が変わる前に眠くなる。朝は朝で太陽が上ってくる朝6時台に目が覚めるので、夜もすぐ寝てしまうのだが、なぜか毎日どこかに時間が吸い取られてしまっている感がある。うーん、なぜだろう。

昼から入試の仕事。去年と今年は広報担当なので入試は初めてだが、今年は海外に行ってらっしゃる助教の先生方が多かったりなんだりで、入試担当の助教の先生方が足りないそうで、今回ヘルプに入った(いつ自分が逆の立場になるか分からないし)。しかし、こんなに分単位で管理されているとは。監督をしている自分のほうが緊張する。自分の業務は受験生の入試の点数にはいかなる意味でも影響しないという意味では気楽なものであるが (単に受験生を控え室からそれぞれの部屋に誘導するだけだし)、いろいろと考えさせられた。自分はこういう分刻みのスケジューリングとか、細かい数字の計算だとか全然向いていないので、終わったら怒濤のように疲労感が……ぐったり。

終わったあと松本先生とも「小町くん入試の業務やったことある?」と聞かれて少し話したが (というか、去年教員になったばかりで、なおかつ松本先生はずっと入試の仕事をしているので、やったことないのは明らかだと思ったが、今年は例外的にやっていたのであった(苦笑))、よくも悪くも NAIST を支えているのはこの入試 (会社で言えば新卒採用の人事?) なんだなぁと思った。

論文を書くときも what to say と how to say と両方大事で、「答えが合っていたら満点」なんてことは研究の世界ではなく (これが学部までの「勉強」との大きな違いなんだろうけど)、正しく相手に伝える技術も必要で、ペーパーベースの (極端に言うとマークシート式の) 試験では what to say しか測れないが、数学も英語も面接、専門試験も面接、という特異な形の入試をしている NAIST は、研究に必要な how to say と what to say 両方の技術、そして伸びしろを見ることができるというのはよく考えられているなと思う。これも小さな大学だからできることだろうとは思うけど……

夕方言語教育勉強会(e-NLP)で@pavlocatくんが

Daniel Dahlmeier, Hwee Tou Ng. 2011. Grammatical Error Correction with Alternating Structure Optimization. ACL, pp 915-923
http://aclweb.org/anthology/P/P11/P11-1092.pdf

を紹介してくれる。詳しくは@syou6162 さんの日記を参照されたい。やはりこの分野は(大規模な)タグつきコーパスがないというのが一番の問題で、コーパスが整備されていなかったからこそ、添削タグつきコーパスから取得した情報と、生の(ネイティブが書いた、大量の)コーパスから取得した情報を組み合わせるという話が出てきにくかったことなのかなと思う。

あと、思った以上に言語学習者の誤り訂正は問題が難しくて、一筋縄では行かない、ということも関係している。今年に入るくらいまでは単純に機械学習の手法を適用すればそこそこ行けるのでは、と思っていたのだが、全然そんなことはなく、まず問題を整理して、直せる問題はなんで直せない問題はなんで、というところを仕分けしていって、データを整備するところからやらないと厳しい。

いまでこそ日本語の形態素解析も ChaSen や MeCab やらで自動解析できるようになったし、それが当たり前であるとみんな思っているかもしれないが、松本先生が ChaSen を作り始めたころはコーパスから統計的に学習した形態素解析器は (理論的にはヒューリスティックなものよりきれいだし、うまく行きそうなのに) ルールベースの手法に勝てず、夏のプロジェクトなどで地道にエラーを洗い出してひたすらコーパスと辞書を直し (ある単語でコーパス全体を検索し、前後の品詞や単語を見て間違っていたら直す、というのを何度も繰り返す)、という作業を延々やったらしい。

コーパスを直していくと次第にルールベースな手法に勝つことができて、精度が98%だか99%を超えたところでコーパスの修正は止めたそうだが、やっぱり「きれいなモデルだから適用したらうまくいくだろう」という期待もあるが、きれいなモデルのよさがはっきりするのはデータを地道に直していった先にあることなのであろう。(理論的にはこちらのほうがいいはずなのに実データだとなぜだかうまくいかない、よくありますね……←はてなスター用の文章ここに置いておきますね！)

いま seiji-k くんが使っている日本語学習者の誤り訂正のデータ(@tomo_wbくんが正解データを作った)を見ても、いろいろと「これはどうやったら直せるのか不明」から「これはデータを作るときの問題で簡単に直せるし、直さないと査読でツッコまれる」というところの間に、「ああ、なるほどね、こう書きたかったのだろうけど、この間違いは仕方ないなぁ、惜しかったね！」という誤りもたくさんあって、それぞれの裏に言語学的な背景もあったりして、おもしろい。データの整備を進めて行くと、そういう本質的な問題が少しずつ見えてきて、こういうのができるのは言語と情報の境界領域にいる自然言語処理の研究をしている冥利に尽きる。

こういう仕事が好き、という人はあまりいないかもしれないが、好きな人は自然言語処理へようこそ！ (笑)