有限は有限でも膨大で多様なテキストを処理する

今週1週間は前半が勝負。

朝研究室に来て論文の印刷。なぜか図のフォントが文字化けするので、図の入っているページだけ画像として印刷して挟み込む。あと、なぜか1ページだけカラーのページがあるので、これも別途印刷して差し替え。2部作ってレザック紙で製本。結局1時間くらいかかる。

午前中、産学連携室の方々に研究室までお越しいただき、いろいろと打ち合わせ。おっしゃることもごもっともであり、基本的にお任せする。もう慣れたが、やりとりのメールは1人の方としているのに、直接お会いしてお話しすることになると、何人もお越しになる、というのはどういう仕組みになっているのだろうか……。最初はお一人で来られると思っていてびっくりしたものである。(でも、何人かいらっしゃるほうが、冗長化されて仕事の引き継ぎミスなどなくていいのかなとも思う)

昼から3連続で学生の中間発表。4.5時間連続は正直きついものがあるが、月曜日と火曜日だけなので、我慢するしかない。最初の1コマは司会で、久しぶりなのでいろいろ忘れている。一応1人でも審査委員に入っている学生がいるセッションには出ることにしているのだが、これだけ多いと厳しいものがある。最後のセッションは社会人博士の国語研の [twitter:@togiso] さんによる発表で、歴史的資料に対する自然言語処理的アプローチのお話。これまでに現代日本語書き言葉向けのUniDicの開発経験を活かし、中古和文UniDicや近代文語UniDicを作られているが、まだまだやることがある、というお話。「FAQ: 古典のテキストは有限なので、自動解析器を作る必要はないのでは?」というスライドがウケた (笑) しかしいろんな時代のテキストを見ると、これは一筋縄では行かない感じである。

発表後、発表お疲れ様会を兼ねて押熊のインディアンカフェ phool へ。以前来たときは満席で入れなかったのだが、今回は余裕。オサレな雰囲気でなかなか男ばかりで来るのはハードルが高いような気がするが、カフェだと思えば割とよいかも。雰囲気と味をボリュームを勘案するとここは安い。今度は夫婦で来たいな〜。