機会学習による形態素解析機の構築

朝は2時半に起きる。もう目覚ましがなくても自然と目が覚めるレベルである。

3時半から講義資料作成。昨年度より講義の構成が洗練されて、話せる内容が増えているはずなのに、かなり削らないといけないのはなぜ?と思っていたが、小テストの回数が増えたので1時間くらい減っているのと、授業中に演習を解く時間を少し取り入れているせいだった。雑談をする時間がほとんど取れない……。

出勤して情報理論の授業。線形符号による誤り検出・訂正とハミング符号について。今日が小テストのない最後の90分フルでできる授業なので、資料が60ページを超えてどうなることかと思いつつ、演習もちゃんとやり、ぴったり時間通りに終わる(2分早かったが)。よかった〜。

午後はひたすら事務処理。やり始めるとあっという間に数時間持って行かれるのだが、月に数回だけやればいいことも分かってきて、そうするとできるだけ溜めに溜めて一気にやるのが最適戦略になるわけだが、そういう感じだから、他の教員の方々も〆切の前日や当日になっていきなりメールで意見を求めたりするのだろうか? もちろん早くに出していただける方もたくさんいらっしゃるので、環境ではなく個人差も大きいのだが、奈良時代(←曖昧性がある)と比べると直前になってから連絡をもらうことが増えたので、みなさんお忙しいのだろうな、と思う次第。

夕方に研究室に行く。サーバには128GBしかメモリがないのだが、60GB以上使うプロセスがあって何かと思えば Perl のプロセスで、追ってみると syncha だった。1文書ごとに処理するのだが、どうやら100万文を1文書として処理させてしまっていたらしい。そりゃ止まってもおかしくないな……。1文ごとに処理するように変更してもらう(今回、文書単位での処理はコーパスの都合上できないので)。

そういえば、自然言語処理の研究室に来て「これだけは間違えないでほしい」というリストがある。

  • noun (名詞)を「ノウン」と読む。(正解は「ハウス」と同じで「ナウン」)
  • feature (素性)を「フューチャー」と読む。(正解は「ティーチャー」と同じで「フィーチャー」)
  • 「素性」を「すじょう」と読む。(正解は「そせい」)
  • 「文」のことを「文章」と呼ぶ。あるいはその逆。(文は sentence のこと。)
  • 形態素解析機・構文解析機などと書く。(正解は「形態素解析器」)
  • 機会学習と書く。(正解は「機械学習」)

いずれも意味は分かるのだが、間違った方を聞くとどうにも気持ち悪いのであった。発音なんかはどうやったって原語とは違うのでどうでもいいといえばどうでもいいのだが……。