構文解析はいろいろなタスクで役に立つ

久しぶりに朝ゴミ出ししなくてよい日。(あとで調べたら金曜日がびん・かん・ペットボトルの日だったが……) あとは明日に引っ越し関係の段ボール (畳んで3箱分) を出せば、一応大きいものは全部終わり。

午前中、メールの返事と大掃除の準備。どの席に誰が座るのかの最終確認。

研究室の大掃除は基本的に4月以降も研究室にいる人は全員参加なのに、大掃除前は学生が全然いなくて (2-3人しかいなかった) 心配していたが、時間になるとほとんど全員集まってものすごい勢いで掃除が始まってよかった。15時から招待講演があったので、時間までに終わらないとまずいなと思っていたら、14時半までには全部完了していて、ほっとする。参加されたみなさま、お疲れさまでした。

今日の Invited Talkワシントン大学Mari Ostendorf さんで、以前 ATR にいて高の原にも住んでらした、というお話を聞いてなんだか親近感。この地区は日本の中でも割合住みやすいところだと思うので、研究所が立地するのも納得。トークは "Parsing Spoken Language" というお題で話してくれる。話し言葉音声認識や音声翻訳について、文字誤り率のような尺度より、構文解析 (Charniak Parser) の情報を用いると、最終的な翻訳結果や人間の作った正解との相関が高くなる、というお話。

k-best (k=20 だったかな?) の結果を出させてリランキングしているそうで、自分も別のタスクでリランキングを試したことがあるのだが、けっこうパラメータの調整が難しい印象があり、精度を重視するなら、実装は面倒になるが lattice rescoring とか forest を使う方法とかのほうがいいのでは、と感じている (速度やメモリ使用量も制約に入る場合はまた別問題。あと、lattice rescoring だと長距離の依存関係を入れにくいので今回はリランキングでやった、というコメントもあり、それもそうかと思う)。

トークのあと、20分ほど個別に Mari さんに相談に乗ってもらう。自分は音声認識は門外漢なのだが、最近取り組んでいる第2言語学習者の作文誤り検出・訂正の話は、音声認識とけっこう話が似ているところがあり、いろいろとこういう問題にはこうしたほうがいい、我々は中国語ではこのようにしていた (中国語も単語分割が重要なタスクとなる言語なので、日本語と似ている)、などなど教えてもらう。大変参考になる。構文解析の結果もなんとか誤り検出・訂正に使っていきたいし、音声認識は第2言語学習者の作文と同じく入力に認識誤りが含まれている可能性があるという問題設定なので、かなり共通の問題があって勉強になった。

夕方、仮配属の学生が発表になっていたので、きれいになった座席に仮配置。3月末段階で空いている席は9席だが、6席だけの配置だったので、割と余裕がある。しかし4月からの新入生、受け入れ可能な最大定員まで学生が志望すると、もう1席作らないといけない (他の研究室から来る人がいるので、1席足りない) のだが、どこにどうやって作りましょうか、ということを秘書の方と相談してみたり。今回はとうとう休学中の2人に座席を返還してもらってこれなので、もはや普段大学に来ない人の座席は共有席にするなどしないと根本的にどうしようもないのではと……。

夜、帰り際の松本先生と tetsuo-s くんと立ち話。松本先生は今日〆切のお仕事があったそうで、この3-4日で10時間しか寝ていないらしい。年度末だったせいか……。雑用系のお仕事は「頼まれてからは断りにくいので、いかに頼まれないようにするかか大事」というお話をお聞きしたりなど。「あの人には仕事を振らないほうがよい」と思われたほうがラッキー、だとか。副学長の仕事も渋々引き受けたが、研究者から「あの人はもう副学長で、研究はやらなくなった「あがり」の人」と思われたくないので、研究者に渡す名刺の肩書きには入れていないとか (というか、そもそも松本先生が名刺を渡している姿を見たことがないが……)。確かに松本先生はまだまだ現役で研究するぞ!という感じだし、自分もこういう仕事で汲々としたくない (定年で完全に研究者生活を引退したあとフルタイムで大学運営の仕事をするならいざしらず) ので、仕事をいかにかわすかのテクニックも身につけた方がよいのかもしれない (助教になってからいまのところ、本当に意味の分からないなにかに参加したことはないのだが)。