毎日のバックアップに QNAP

朝5時に起きてメール処理。娘が夜中まで起きていると、いろいろなところに弊害があるので、夜9時には速やかに寝てほしい(しかし11時くらいまで起きていたりするようだ。自分は寝ていて起きないのだが……)。

午前中は古典論文紹介。以下の論文を紹介してもらう。

  • Birch, Osborne and Koehn. Predicting Success in Machine Translation. EMNLP 2008.

古典というには新しい気もするが、機械翻訳の精度(BLEU)を予測するための因子は何か、というのを分析した研究。結局有意なのは並べ替えの量、目的言語の語彙サイズ(原言語の語彙サイズは関係ありそうで実は関係ない)、そして言語の類縁性、という3つだという話。

基本的にはほとんどヨーロッパの言語間でしか実験していない、という問題はあるものの、それ以外は今でも当てはまるんじゃないかなぁ、と思って読んでいたのだが、ディスカッションをしてみると、どうも並べ替えが最も重要な因子だという分析も、BLEU で評価しているからではないか、という指摘があり、確かにそうかも、という気になる。人工データで実験しても同じ結果になるような気もする。

個人的にこの論文を取り上げてもらってよかったと思うのは、どれくらい言語学の知識がみんなにあるのか分かったことで、たとえば印欧語族という概念も聞いたことない人が研究室内では大多数で、フィンランド語(スオミ語・フィン語)が印欧語族とは全然違うということはみんな知らないとか、確かに世界史か地理を選択しないと勉強しないような気もする(自分は世界史・地理選択だったので、大学受験でこれらの知識を学んだ。世界史ではなく地理だったような気がする)。自分も20年前のことなので、少し嘘を教えてしまったが……(民族大移動とフィン語は関係ない)。

あと、論文を紹介するときは事前に華麗に翻訳して読み上げないこと、というのは研究室内では伝達していて、論文を読む人は英語を読むので日本語として流暢に翻訳されても対応箇所が分からないので、翻訳するにしてもできる限り逐次的に切ってもらっているのである(これは NAIST 松本研で言われたこと)。訳したのを読むのも、読解の速度と比べて速いことが多いので、読み上げるのではなく、英語を見て(ところどころ英語のままでもいいので)日本語で説明してほしいのである。

午後は少しだけサーバ管理業務。研究室のサーバのバックアップを取っている Drobo の調子が悪い(4台しか HDD が刺せないモデルなのに、1ヶ月に1台ずつ HDD の異常が検知される)ので、これを機に QNAP にリプレース。Drobo にバックアップを取っておいてよかった、というような事態は首都大に来てからは(幸いながら)まだないのだが、NAIST 時代は2-3回バックアップに助けられたことがあるので、取っておくに越したことはない。サーバの RAID も時々メールが飛んでくるので、これだけの HDD の台数があれば年間4-5回の頻度で HDD の交換があるのは仕方ないとは思う。研究室のファイルサーバも昨年 QNAP にしたので、設定のやり方は分かっていて詰まるところもなく完了。

Drobo は何も考えず HDD の交換だけすればいい、というのは楽だったのだが、単体でやれることが非力なのがネックだった。QNAP はとにかく機能が豊富な割にはサクサク動く(シーケンシャルばかりでなく、ランダムアクセスも相当速く、シーケンシャルも大きいファイルならローカルの HDD と大して変わらないくらいの速度が出る)し使いやすいので、ファイルサーバはもうこれでいいんじゃないかなという気がしている(ファイルサーバとして自分で NFS の設定とかしていた時代を思い出すと、もうああいうのはやりたくない)。

そういえば Drobo は「ディーロボ」ではなく「ドロボ」が正式名称になっていたことを知る。

夕方は学会業務 x3。今年はたくさん投稿した(する)ので学会業務もやらないと、と思ったが、投稿する数を絞って学会業務も減らした方がいいのでは、という気がしている。すでに国内学会の論文誌はほとんど投稿しないので、投稿する可能性があるところの査読以外はまずお断りしていて、そうでなくても忙しくない時期でないとお引き受けしていない(大抵依頼が来るのは忙しい時期なのでお断りする)のだが……。

ちなみに、投稿する数を絞る、というのも、投稿する研究と投稿しない研究を選別する、というよりは、投稿できなさそうな人はそもそも大学院で受け入れない、というような運用にしようと思っていて、今年は1年かけてどのあたりが妥当なラインかを見極めようと思っている。とりあえず今年度は外部受験生に関しては出願時に TOEIC 650点未満の人は出願を受け付けないことにしているが、来年度から内部進学生についても筆記試験免除に通らなかった場合は TOEIC に関して基準を設けようと考えている(たとえば内部進学生で一般選抜を受ける場合は TOEIC 650点、外部受験生は750点が足切りライン、みたいな。さすがに厳しいかと思って、50点ずつ下げるかもしれないけど。)。入ってくる段階での自然言語処理の知識やプログラミングの能力は問わず、入ってから頑張りたい、という人を積極的に受け入れたいとは思うのだが、英語力(と数学力)に関しては研究室でどうこうするものではないので、英語あるいは数学は大学院に入ってから頑張ります、ではなく、その2つは大学院に入る前に各自やってきてほしい、と思うのである。

補足すると、数学力については本学の内部進学の学生であれば全く問題がないし、理系以外から情報系に進学したいけど、基礎的な知識も教えてほしい、という人は NAIST のように基礎から教えてくれる素晴らしい大学があるので、そちらに進学することを強く勧めている。首都大の大学院はそのようなカリキュラムになっていないし、いち研究室でできることは限られているので、全ての科目で基礎的な科目を開講できないし、学部の科目を聴講に行ったりすることは可能だが、大学院は大学院で大学院の単位として専門的な科目を取らないと卒業に必要な単位が揃わないので、基礎的な科目を取って単位の大部分が充足される NAIST とは大きくコンセプトが異なり、基礎知識に不安のある人が進学するのは必ずしもお勧めしていないのである。