ビッグデータに踊らされない

朝大学に来て昼の臨時コース会議の資料を印刷する。大学に滞在できる時間が限られているので、大学でないとできないことはを先に済ませておかないといけないのである。こうして人間は最適化されていくのだろうか……

午前中は機械翻訳勉強会。言語モデルの章を途中まで読む。言語モデルといえばこれまでは「確率的言語モデル入門」が定番

言語と計算 (4) 確率的言語モデル

言語と計算 (4) 確率的言語モデル

で、いまもそれは変わっていないと思う。ただ、いろんなところで同じ話が出てくるのは、冗長と思う人もいるかもしれないが、3回くらい同じ内容を聞いてようやく定着する人も多いので、こういうふうにコンパクトにまとまっているのも価値があるだろう。後半に少しだけ進捗報告を聞く。

Moses がうまく動いていないようだ、という話で、gawk がないので make test に失敗する、というのが前回だったが、今回もエラーのログを見てみると、SRILM 回りでエラーが出ているっぽい。./configure するとき SRILM を有効にしたかどうか分からない、ということだったので、オプションをつけてもらったのだが、エラーは変わらず。はて? と思い、パスを ~/ で書いてもらっていたのを絶対パスに置換してもらったら、通った。そうか、チルダの展開はシェルがやっているので、単語の先頭にチルダが来ないと展開してくれないんだったか……(そういうのがあるので自分は常に ${HOME} を使うのだが)

京都フリー翻訳タスクのデータでは、1回スクリプトを回すと数時間かかるらしいので、あとでチェックすることにして、臨時コース会議。議題は1つ(+1つ)しかないので、30分で終わる。原案通りではなかったが、議論が即断即決であるのはすばらしい。いろいろな考えの人がいるなぁ、と思う日々である(自分もそう思われているのだろうけど……)。

午後は機械学習の基礎勉強会。第4章の分類タスクである。SVM などが出てくる一番の難所である。この章だけは、分量の割にタフなので、もう少し時間をかけてもいいのかもしれない。来年度への申し送り事項にしておこうか……

夕方、Moses の続きを聞く。無事翻訳が動いていて、日英・英日の翻訳結果が出力されているようだ。まだ最適化の途中で最終的な結果が出ていないが、どうやら最初の結果が出るまでが数時間、最適化(MERT)を含めると1日近くかかるようである。この速度だとなかなか研究を進めづらいので、ひとまずデータを1/10くらいにしたほうがいいような気もする。自分が最初機械翻訳の研究をしたとき、使ったデータは BTEC という旅行会話の4万文であったが、当時の(現在からすれば)非力なマシンでも15分で訓練できていた気がするので、それくらいのサイクルだといろいろ試せるが、時間がかかると研究の速度に影響するし、大規模データがあるからといって常に全体を使う必要はないのである(大きなデータでないと意味がない研究テーマだと、データを小さくして実験できないが……)。