大学院での研究は一人で悩むのではなくみんなと相談して問題解決する

朝からサマーブートキャンプ。昨日からの継続で、日本人の英作文の誤りを自動検出する、というタスク。初日の最後30分で簡単なベースラインは作ってもらったので、2日目はそれを元に改良していくという課題と、改良したバージョンでエラー分析をしてもらうという課題の2本立て。

2日目は基本的に全部実習なので、具体的な補助は [twitter:@tomo_wb] くんとyutaro-sくんにお任せする。[twitter:@keiskS]くんも手伝ってくれたので、とてもありがたい。今回はみなさんのヘルプがなかったら絶対間に合わなかったので、大変感謝している。

昼はサマーブートキャンプの懇親会。例年より人数が少なかったが、ちょうどよいくらいではないかなと思った。去年NLP若手の会のシンポジウムで懇親会に使ったのと同じ部屋だったが、参加者はちょうど半分くらいかな?これくらいがちょうどかなと思った。そういえば去年は大量に食べ残しが出た記憶があるが、今回の懇親会はちょうどぴったりくらい。さすがである。

受講生の人から研究を仕事にするには、という質問をされて考えたが、大学で研究すれば研究テーマを変える必要はないが身分は不安定、企業で研究すれば身分は安定するが状況次第で研究テーマは変えなければならない、というトレードオフがあり、どちらがいいかは一概には言えないなぁ。まあ、研究テーマに関しても、必ずしの自分のやりたいことで研究費が取れたりポストの募集があったりするわけではないので、大学にポスドクとして残っても自分のやりたいことができる保証もないが……。それを考慮に入れても、博士後期課程で研究してみて判断するというのもありだとは思う。(情報系は少なくともプログラミングができれば博士後期課程に進学しても食いっぱぐれる心配はないので。)

午後の前半は演習の続きをやってもらい、後半に成果報告会。いろいろ実験してもらった結果を最後にみんなの前で報告してもらうのだが、いつも「なるほど〜」と思うような考察をしてくれるので、楽しみなのである。

今回実習生が発見してくれた知見でおもしろかったのは、日本人の英作文の誤り検出には、検出対象の単語の表層とその単語の一つ前の単語の品詞を組み合わせた素性が非常に効果が高かった、という報告である。なんらかの形で単語の組み合わせに関する情報を用いることが重要なのだが、機械学習に使った訓練データが少ない (3,000文) ので、単語そのものの組み合わせ素性はスパースになるため過学習になりがちで、品詞と単語の組み合わせくらいがちょうどいいのではないかと推測される。大規模データから抽出した言語モデルがあったりしたらまた違う傾向なのかもしれないが、実習用に準備したデータからここまで実用的なものを作れるのはすごい。

他にも素性を足して性能が上がるかを見ている人がいる一方、素性を減らして (人手で素性選択) 結果がどのように変化するか見た人もいたり、エラー分析をしっかりしてくれる人もいたり、いろいろな意見があっておもしろい報告会であった。(エラー分析をちゃんとしようと思うと、エラー分析用のツールキットも用意しておかないと短時間では難しいので、これは今後の課題である)

仮に誤り検出・訂正ワークショップに参加していたら、全員堂々の2位になることができたので、参加してもらえればよかったのだが (笑) ※あとで考えてみると、今回のシステムは学習にも評価にも人手で付けた正解の品詞情報を用いていたが、誤り検出ワークショップの場合は評価データに対する正解の品詞データが付与されていないので、評価データに対して自動品詞タグ付けがどれくらい正確につけることができるかで多少性能は悪化しそうではある。

前のサマーブートキャンプと比較した反省点としては、以前は2人1組で演習をして (参加者が6人いたせいもあるけど) 報告してもらったのだが、今回は1人1人で別々に報告することをお願いしたので、あまり情報交換が進まなかったことかな。その代わり、3人とも違うアプローチで問題解決に当たってもらえたので、善し悪しではあるけど……。1人1人で実習する場合、最後に1回成果報告するのではなく、途中で1回中間報告を入れたらいいのだろうか。そうすれば中間報告段階での知見は全員で共有できるので……。

帰りはみなさんを高の原にお送りして解散。今日は宇治川花火だったので、早く帰宅したいのであった。観月橋の自分の家 (4階) のベランダから見えるかと思いきや、南側の棟に阻まれて音が聞こえるだけだったので、残念。外に出てみたら木々の向こうに花火が見えた。もっと近くに行けばきれいなんだろうが、暑い中人ごみに出ると夫婦ともども消耗してしまうのでパス。今年は祇園祭もスルーしてしまったが、3月のお水取りは行きたいな〜。