10年の保存ができるようにする

午前中は古典論文紹介で以下の論文を紹介してもらう。

  • Yihong Gong & Xin Liu. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis. ACM SIGIR 2001.

これは文書要約の古典的論文で、ヒューリスティックを用いた手法と潜在意味解析を使った手法の両方で要約をしている。こういう研究、博士後期課程~助教くらいのころはよく眺めていたのだが、いまの職場に来てからは(ニューラル言語生成が花開いたせいか)ほとんど見なくなっていて、逆に新鮮であった。

お昼は1時間ほどメール処理をしてからサーバ管理。3年前から研究室のファイルサーバは QNAP で管理している のだが、40TB あった容量も今は98%の使用量でアップアップ。以下のような12ベイの構成で、2個の HDD はミラーリングでコーパスや辞書を提供(こちらは別のマシンにバックアップもされている)、10個の HDD で RAID 6 で作業ディレクトリを提供している(こちらはスナップショットは取られているがバックアップはされていない)。今回はこの RAID 6 部分を 6TB から 10TB に変更。本当は 12TB がいいかと思ったが、コスパを考えて妥協。

また、それに合わせてひたすら卒業生のファイルを圧縮したり、容量に余裕のあるサーバに移したり、Google Drive に API 経由でアップロードしたり。Google for Education だと Google Drive が無制限に使え、1ファイル 5TB まで OK のよう(ただし1日の転送量は 750GB まで)なので、ちまちまアップロードすればなんとか空けられるので助かる。本学では論文の元データの10年間の保存が義務付けられているので、こんな容量があったら保存も大変。

午後は授業の準備をしてから南大沢に移動して B1 の基礎ゼミナール。ディベートをしようと思っていたのだが、時間配分に失敗してディベートの説明だけで終わってしまった。しかしすでに高校でディベートをしたことがあるという学生が半数くらいいたので、これはやらなくてよかったかと少し思ったりする。説得のスキルはビブリオバトルで十分なので、ライティングの練習をもっとすべきだろうか。