コーパスの前処理ではまるのはみんな一度は通る道

朝一で歯医者へ。虫歯かな? と思って予約して行ったのだが、どうやら虫歯ではなく歯が欠けていたらしい。タイでおいしいものを食べ過ぎたか……。エビとかカニとか含め、魚介類の料理も有名だったので、カニとかがんばって食べたのが悪かったか……

昼から学生発表の司会。みんなに質問してもらうのは難しいな〜。結局自分が質問することになってしまうのだが、聞いている人が質問したくなるような感じに司会するのはどうすればいいんだろう。(司会の力でどうにかなるものではないのかもしれないが)

午後は機械翻訳勉強会で、takatomo-k くんの論文紹介。

Andrew Finch and Eiichiro Sumita. A Bayesian Model of Bilingual Segmentation for Transliteration. IWSLT 2010.

を紹介してくれる。先日のタイで開催された国際会議のワークショップで似たようなことを発表されていたようだが、あの話の前のバージョンなのかな? (読んでいないけど論文は Integrating Models Derived from non-Parametric Bayesian Co-segmentation into a Statistical Machine Transliteration System のようだ)

進捗報告は thichinh-t さんで、いろいろと解析器の出した結果を見せてくれたり、分析結果を説明してくれたりして理解が進む。やっぱりデータを見てあーだこーだ考えるのがいちばん楽しい (失敗例も含めて)。

夜は意味談話解析勉強会で、ryosuke-m くんが

岡野原大輔, 辻井潤一. 全ての部分文字列を考慮した文書分類.情報処理学会研究会報告NL (187). 2008. (情報処理学会山下記念研究賞)
岡野原大輔, 全部分文字列のクラスタリングとその応用.言語処理学会第17回年次大会 (NLP2011). 2011. (言語処理学会優秀発表賞)

を紹介してくれる。時間を取ってちゃんと読んだことはなかったので、勉強になる。ツールも公開されているので、ryosuke-m くん自身すでに動かしてみたりしたそうで、結果を見るとなるほどなという感じ。最近データを見てタスクの解き方を考えると、やはり単語分割あたりの問題はどうしても避けて通れないことを痛感していて、このあたりもう少しがんばるべきかと思ったりなんだり。

あと [twitter:@shirayu] くんが進捗報告。コーパスのパーザーを書いたりしているそうだが、新しいタスクに挑戦するとコーパスやら辞書やらの前処理に時間がかかる。特に M1 の人なんかはデータの前処理 (たとえば XML の解析) に想像以上に時間を取られたりするだろうが、それは最初みんな同じことなので、面倒かもしれないが、乗り越えていってほしい。

ちなみに、周りで詳しそうな人に聞いてみる、というのがいちばん効果的である。聞けば5分のところ、自分で解決しようとして1週間、ということは本当によくある話で、聞くは一時の恥、聞かぬは一生の恥、とはよくいったものである。聞かないで全部自分でやって満足だけど研究成果が出ないより、いろいろ聞いて教えてもらって研究進めてどんどん発表するほうが、限られた時間の有効活用という意味では優れた戦略だと思う。(もちろん、じっくり自分で解決する能力を養う、というのも立派なことではあるが)