外に出て力が分かるインターン

朝に起きて授業資料の更新。今年は授業中に課題をやってもらうスタンスなので、直前にならないと資料を上げない(前に上げすぎると、誰かに解かせて一気に提出できてしまう)のだが、作成は直前にやらなくてもいい気がする。

授業は先週の続きだが、余談も含めて1時間弱説明し、あとは課題ができた人は出てってもいいよ、と言うと、その瞬間に半分くらいの人が出ていった(先週の課題を引き続き出したので、半分の人は先週の段階で終わっていた、ということだろうが)。出席を必須としていないので、どこかに集まって一人が書いて残りの人がコピペしても分からない、という問題がある(出席している場合は巡回するので怪しい人は分かる)のだが、もしかするとさすがに出席を必須とした方がいいのかもしれない。(会議もリモートでできる時代だし、課題をやるならリモートでいいと思うのだけど、やらないでやったことにする人がいるのが問題)

お昼は文科省に提出する書類関係で立ち話。集中講義は日野キャンパスでは原則禁止だった(集中講義だと履修できる人と履修できない人が生まれやすく、公平性に欠ける、という考え方)とか、なるほどそうなのかー、と思うような歴史を聞いたりする。大学教員という仕事、奥が深すぎて、これは突然企業や研究所の人が転職してきてできるものではないのでは?と思ったりする(逆もまた然りだろうけど)。

学生として学部に7年(3年間は留年)大学院に5年いて、教員として大学院に3年いたのだが、これまで15年間も大学にいて、大学教員の仕事だと思っていてその通りだったのはよくも悪くも全体の1/3くらいで、2/3は全然予想しなかった性質の仕事が待っていた、という感じ。その中も半分くらいはやり甲斐のある仕事で、残りのさらに半分くらいはやり甲斐はともかく誰かがやらないといけない重要な仕事だが、全体の1/10くらいはどう考えてもこの仕事なくていいんじゃないか?と思う仕事もある(当然、やる気も低い)。どんな職種にもそういう類の仕事があるだろうから、これが多いか少ないかというと少ない気もするが、誰が読むのか分からない(恐らく誰も読まない)書類を延々と作成したり作成を依頼したりするのは心が折れそうになる……。

昼から ACL 2016 読み会。今期は論文紹介を国際会議の論文読み会ベースにしてみた。ACL 読み会と EMNLP 読み会をやるだけで、たぶん半期が終わるのである。論文の読解力(数学力と英語力も含む)が十分にあれば精読をする論文紹介は必要ないだろうが、その部分をしっかり確認せずに論文読み会のみにしていいのか?とは少し思っているものの、自分が参加できる時間も限られているので、精読は進捗報告の時間を確保するためのトレードオフとして断念した(そもそも前期も精読する論文紹介はほとんど出られていなかったので)。論文を読んで理解して実装する、というトレーニング、どうやるのが効果的なんだろうなぁ。

それはさておき、毎週論文紹介をやることにしたので、初回の今日は3本聞く。おもしろかったのは

  • Costa-jussà and Fonollosa. Character-based Neural Machine Translation. ACL 2016.

で、英独のニューラル翻訳で文字ベースの機械翻訳を提案する、というもの。中身を読んでみると、完全に文字ベースになっているわけではなく、単語の分散表現を文字の分散表現から(CNN を用いて)計算する、という手法で、単語分割は与えられている、という前提のようである。しかも、言語の特徴を考えると、複合名詞がたくさんあって未知語が多そうなドイツ語から英語への翻訳の方がこの手法の効果がありそうなのに、英語からドイツ語への翻訳の方が効果が高かったというのも謎。日本語を使う我々としては、単語分割は自明ではないという前提で文字から単語を組み上げて一気に翻訳する、みたいなアプローチに関心があるので、それが計算量的に可能なのか、みたいなことも含めて考えてみたい。

夕方は研究会で、研究室の紹介でこの夏にインターンシップに行った人のインターンシップ参加報告を3件。今年は合宿をやらないので全体でこういう話を聞く機会がなく、B3 の人も来る研究会の時間にやってもらうことにしたのである。昨年は、B3 の人向けには専門に関係するチュートリアルをしてもらったのだが、爆睡する B3 も多かったので、今年は趣向を変えてみた。そもそもチュートリアル形式にしたのも、どちらかというと研究室の M1 の人向けで、就職活動で必要になるので分野外の人に専門分野の話をする練習をしてもらいたかったのだが……(分野外の人にも分かりやすく話そうと努力しない人は、就職活動では苦労するだろうと思うし)。

インターンシップ参加報告は三者三様でおもしろかった。「言語処理100本ノックはやっておいてよかった」とみんな異口同音に言うので、報告をお願いしてよかった(本当は来年の新入生にそれを伝えたいのだが)。うちの研究室では最初の3ヶ月に(それまでどのような勉強をしてきたかは問わず)一通り自然言語処理の基礎勉強をしてもらうのだが、これは一通りちゃんとこなすことができれば、外部のインターンシップやアルバイトに行っても「お荷物」にならないレベルを保証するという意味合いもあるので、とにかくしっかりやってもらいたいと思っているのである(6合目くらいから力尽きる人が出てくるが、どこまで行けたかでその後の研究開発能力がだいたい予測できる)。

もっと言うと、繰り返し書いていると思うが、実は研究室の基礎勉強会は1年目に自分が出席するだけでは完結しておらず、翌年に TA として新入生に教えるところまでやることで、1年前には理解できなかったところが分かって完全に定着する、ということも考慮しているので、内部進学生は M1 の夏くらい、大学院から来る人は(D 進するつもりで)M2 のときにインターンシップに行くとちょうどよかったりする。