翻訳の知見を貯めて中国語

なぜか午前2時に目が覚めたので、NLP 若手の会シンポジウム(YANS)のタイトルと概要をチェックしたりする。7/31はほとんど時間が取れないことが確定しているので、早めに対応する必要があるのであった。

結局眠れずにメール処理と研究室のウェブサイトを少し更新。研究室のウェブサイトは大学院の受験生がよく見てくれているようなので、こういう人に来てほしい、こういう人は他大学・他研究室に行ってほしい(→これ重要)、ということを適宜更新していて、今年度は問い合わせ数を激減させることに成功したのだが、まだ問い合わせを受けてしまうので、問い合わせが来ないように改定したいと考えている。

午前中は出勤して研究相談。結局タスクの設定がよく分かっていないのだが、話を聞いてみるとタスクの入力と出力が分かった(そもそも入力は存在しなかったことが分かった)ので、実装できそうな感じにまで落とし込むことができた。あとは実装力の問題だが、これは(来年の3月までに)実装できるんだろうか。まあ、最低限のものはできると思うので、そこからどこまでできるか、という話だが、実装を頑張るのと人手をかけるのとどちらが意味のあることか、というのを最近考える(日本語形態素解析器に関するメモの「言語処理学会年次大会などで発表されている応用タスクで「○○という手法を用いてN%上がりました!」という発表がたくさんありますが、少なく見積もってその3割くらいのタスクで、本人たちがその手法の開発にかけた時間を形態素解析辞書のメンテナンスにかけるだけで同じ 「N% 上がりました!」が達成できると思う」というのに同感なので)。

昼から博士後期課程の受験希望者と面談。すでにメールでいろいろやり取りをしていて、博士後期課程の受験は了承しているのだが、既卒なので10月から研究生として来たいということで、研究生関係の書類にサインすることも兼ねて来てもらったのである。修士の専門は音声認識だそうだが、いろいろ勉強しているようで、話が通じて嬉しい。10月段階では座席を用意することができるかどうか不明なのだが、4月の座席をもう一つ確保する必要があるので、どうするかを考えないといけない(まだ確定ではないが、4月からもう1人留学生が増える予定もあるので)。

学部4年生から修士までの3年間研究室に在籍する学生と、博士後期課程の3年間研究室に在籍する学生では、研究室に在籍する年数は同じなのだが、どちらを優先するか(専有する座席数は同じ)、というのは悩ましい問題である。研究的には(あと教員の負荷的には)明らかに博士後期課程の学生を受け入れるべきだが、せっかくうちの研究室を希望して配属された内部生を、そのまま大学院生として受け入れることができない、というのは忍びない。とはいえ、筆記試験免除に通った学生は文句なく受け入れるわけで、筆記試験免除に通らないなら仕方ない、と割り切るしかないのだろうか……。(無限に受け入れられないので、いつも苦渋の選択をせざるを得ない)

午後は進捗報告。今年も Workshop on Asian Translation の機械翻訳タスクに参加していて、過去3回は日英翻訳にしか参戦していなかったのだが、今年は英日翻訳と中日翻訳にも参戦する、ということで、様子を聞いたりする。なんか中日翻訳で途中でプロセスが止まったり、バッチサイズを大きくできないとかいう報告があり、いろいろ話を聞いていると、長い文をフィルタリングしていなかったということで、そりゃミニバッチによっては動かなくなるわな、と納得。こういう前処理・後処理の知見を少しずつ貯めないと、突然翻訳に参戦しても簡単なところでつまずいたりするので、こうやって翻訳グループがノウハウを共有してくれているのは嬉しいことである。(今年度の後半から、中国語の翻訳や基礎解析にも本格的に着手していきたい)

9月〆切の LREC についても少しずつ準備しているところだが、何人投稿するのだろう? 同時に投稿できるの、3本がいいところだろうか……