自然言語処理の勉強をしすぎない

朝からいろいろと細々とした仕事。新入生のためのワークステーションの移動の立会いや、サーバのバッテリー交換の立会いなど。合間を縫って査読に方を付ける。来週〆切の次の査読が待っているのだが……。

午後、新入生の配属の説明会。の前に、研究室の座席の最終決定と掃除。いろいろ所有者不明の物品が見つかる。どうしたものか。みなさん立つ鳥跡を濁さず出て行かれるとよいのだが……。

説明会、今回は[twitter:@mrcarrot] くんに一任したので、一安心。ai-aさんや[twitter:@tomo_wb]くんたちも手伝ってくれていたようである。

デスクトップとディスプレイの配分だけ自分が担当。もっと配属人数が少なければ残す資材も選別できるのだが、12人新入生がいるとas-isでお渡しするしかないし、配分に関して不満な人もいるかもしれないのだが、申し訳ない。共同研究に関わる人など、特定の人は別口でマシンが支給されることもあるし、博士に進学する人はどこかで自分専用マシンを買ってもらえる可能性が高いのだが、博士に進学する人だったら、先に自分で買いそうな気もしないでもない。M1 の人は夏前は授業で忙しいので、変にお金を使わず、買うにしても夏休みに入ってからのほうがいいと思うけど……。

夕方、言語教育勉強会。今日は

を紹介。現在誤り検出・訂正ワークショップというものを主催していて、そこで用いるコーパス (KJコーパス) がこれなのである。これまで誤りのタグは見たことがあったのだが、句構造などいろいろな情報が付与されているので、情報をメンバーと共有しようと思って。

松本先生曰く、誤りのタグと品詞のタグを別々に付与しているのは冗長で、誤りを訂正した文字列があるなら、そこに直接品詞をつければいいのでは (そうすれば自動的にどの品詞がどの品詞に間違えるのかも分かるので、人手で明示的につける必要はない)、とのことで、これに関しては自分も同感。ただ何をどう直すのかについて、どのようにすればタグの粒度を制御できるのか自分の最近の関心ごとである。日本語の場合、学習者の書いた作文における単語とはなんであるか、というのも悩ましいところなので、うまく設計すれば使いやすくなると思うのだが……。

KJコーパスは、機械学習の訓練データとして使えるかは微妙なところだが (全体で3,000文)、評価データあるいは開発データとしてはもちろん使えるし、せっかく自由に使えるデータなので、ぜひ活用したい。

今日の勉強会から新入生の人たちが参加。6-7人くらい? 秋以降はどこか一つの勉強会をホームグラウンドにして研究することになるし、最初は出られるだけいろいろ出てみるとよいかと思う。

そういえば松本先生が新入生に「ゴールデンウィークまでは自然言語処理の勉強をしなくてよいので、なにがしたいのか、なにができたらいいのかしっかり考えてほしい。だんだん勉強してくると、あれができないこれもできないと思ってしまいがちで、そういう固定観念が染み付いてしまう前に考えることはとても大事で、そこにブレイクスルーがあることが往々にしてある」とおっしゃっていたが、自分ももっと発想を自由にしないとなぁ、と気持ちを新たにする。