卒論を英語で書いてサブミット

今日は秘書さんの出勤日なので、ひたすら年内の予算処理。最近はやり方が分かってきて、予算を計画的に使うことはそこまで大変ではないので(定常的な仕事がたくさんあると、発注系の業務を依頼するのが遅くなってしまう、という問題があるが)、神経を使うのは予算を計画的に確保することである(企業との共同研究が、いつ締結されるのかで予算の使用可能開始時期や、年度内の予算が異なってくる)。

午前中は学部教務委員長業務で、委員会前の事前レク。全学の教務委員会の日の周辺から学部教務委員会の日までの2-3日にやらないといけないので、日程が限られているのである。学部教務委員会も、毎月第2木曜日に開催される全学の教務委員会の開催日の翌日から毎月第3木曜日に開催される教授会の開催の前々日までに実施しないといけないので、基本的には金曜日、月曜日、火曜日の3日間しか開催できない。いつも日程確保が大変。

お昼前にはオフィスアワーを2件。これ始めて3ヶ月目で、だいたいやり方が分かってきて、活用する人と活用しない人と二極分化しているが、これでいいのだろうか? 研究的にはこれがベストな気がするのだが、教育的には必ずしもそうではない(自律的にやれず、ほとんど研究が進まないまま時間が経過してしまう人が出てきて、どうしようもなくなる場合もある)ような……。まあ、指導教員的にはそうはならないように、オフィスアワーにしているのは M2 以上の学生だけなのだけど。M2 というより、研究室に来てから2年(1年半〜)を経過したら、オフィスアワーモードに移行していい、というような気持ち。

うちの体制だと、研究室に来てから2年というのは、内部生あるいは研究生を経由して博士前期課程に入る人だと M2 がそれに該当し、大学院から博士前期課程に入る人だと D1、博士後期課程に入る人だと D3 または研究生経由で博士後期課程に入る人なら D2 が該当するのだが、博士後期課程の学生が少し心配である(博士後期課程なんだから、博士号が取れなくても自己責任だし、自分でやるべきだ、という意見もあるのだろうけど)。

午後は研究室の論文紹介で、以下の論文を紹介してもらう。(スライド

  • Zi Yin and Yuanyuan Shen. On the Dimensionality of Word Embedding. NeurIPS 2018.

これはタイトル通り単語分散表現の次元数に関する研究で、最適な次元数というものを理論的に解析するという論文である。何をもって最適かという数理的な尺度を提案し、有効性も実験的に示している。我々も、対象としているパラメータは違うが、似た問題意識で今年に取り組んでいる研究があるので、大変興味深かった。

結局示したいのは、未知のデータに対しての予測性能が最適になるようなパラメータ設定(値)がある、ということで、そのパラメータのよさを評価する妥当かつ intrinsic に決まる尺度を定義するということと、訓練データと開発データを分離し、instinsic なタスクと extrinsic な佐の両方で有効性を示す、ということなのかと思っている。理論的な解析がしやすいのは訓練データだけでできる研究で、これは解がきれいに求まる場合も多いと思うのだが(理論的なきれいさが好きなら、その方が研究しやすいのだろうが)、実用上は(つまり言語処理的には)訓練データだけでうまくいくパラメータが見つかっても意味がないので、こういう方向でやる意味がある(しかしそのために問題が難しくなり、工学的には性能が最大になる解を求めることはできても、理論的にすっきり説明できないかもしれない、という問題がある)。

研究会では卒論の目次発表と言語処理学会年次大会の目次発表。うちのコースでは卒論は必須ではなく、特別研究(卒業研究)発表会の予稿の提出が必須なので、卒論を必須とするかどうかは研究室ごとに違うのであるが、うちの研究室では国内の学会あるいは研究会で発表をする場合かつ進学予定の学生については、最近は卒論の提出を求める代わりに、発表する原稿をもとに英語で論文を書いてもらっている。日本語で長い論文を書ける能力はもちろん大事なのだが、短くても英語でかっちり論文を書く能力も大事だと思っていて、長い論文はいずれにせよ修士論文で書くことになるので(修士論文を英語で書いてもいいのであるが)、順番的に卒論でそれをする必要はない、と判断したのである。ちなみに修士論文は1カラムの論文誌フォーマットでだいたい30-40ページ(表紙や目次等が10ページ分あるので、本文は正味20ページくらいで、これは2カラムだと10ページ程度に相当するので、修士論文では国際会議のフルペーパー相当の内容を書いてもらっている計算)。

いまのところ、昨年度卒論を免除した学生は全員 ACL/NAACL の Student Research Workshop で発表してもらったし、今年の B4 で卒論免除予定の学生はすでに NAACL short に1人投稿済みで、もう1人も NAACL Student Research Workshop (または ACL short)に投稿準備中で、B4 から M1 にかけて英語で一度論文を書いておくと、修士のうちにもう一仕事できる感じになるので、現在の環境的にはこれがベストプラクティスなのかなと思っている。