実験結果だけではなく考察やエラー分析も大事

[twitter:@tomo_wb] くんが東京から奈良に帰って来たようだ。そしてまた旅立って行った。

昼から学生の中間発表。[twitter:@tuxedocat_tw] くんと [twitter:@__yuyay__] くんの発表。最近 M1 の間で進路に迷って「D に行くか進学するか」という選択肢で悩んだりするらしい (笑)

午後は機械翻訳の勉強会。katsuhiko-h くんの進捗報告と thichinh-t さんの論文紹介。論文は

  • Fei Xia and Michael McCord. Improving a Statistical MT System with Automatically Learned Rewrite Patterns. COLING 2004.

で、語順の入れ替えみたいな書き換え規則を抽出してフレーズベースの統計的機械翻訳エンジンに入れると翻訳がよくなりましたという話。そういう規則を入れると単純なフレーズベースの統計翻訳より改善するということには別にそんなに異論はないのだが、その後盛んに研究されるようになったもっと複雑なモデル、たとえば階層的フレーズ (木) ベースの翻訳と比べてどうか、ってところは知りたいかな〜。あと、もし仮に並べ替えや書き換えを用いる手法が少し syntax-based な統計翻訳に及ばなかったとしても、抽出できる規則がメンテナンスしやすいとか理解しやすいとかいう特長があったりとか、言語学的な背景理論があるだとか、そういう違いについて言及してほしかったり。

夕方、ikumi-s さんの公聴会。2つの仕事についてそれぞれ第1部と第2部という2部構成でお話してくれる。自分が初めて先輩方の公聴会に出たときは、ryu-i さんや nozomi-k さん、[twitter:@takahi_i] さんたちのころだったと思うが、それぞれの方が修士のころ、あるいは D1 のころにされていた研究については知らなかった (自分が入学したときみなさんすでに D2 だった) ので、公聴会で初めて「こんな研究していたんだ!」と気づくことがあったり、3年間ずっと研究に打ち込めるというのはすごいなぁ、と思ったり、いろいろ感慨深いものがある。

[twitter:@kazushi_] 先生の鋭いツッコミがあったりするが、一応つつがなく終了。[twitter:@hayasick] くんと近況報告をしたりとか。確かに公聴会までは先輩のものに出れば雰囲気やどのようにスライドを作ればいいか分かるけど、最終審査はクローズドなので、先生やすでに学位を取得した人に聞かないと、どのように準備して臨めばよいか分からないかも……。

夜、意味談話解析勉強会。[twitter:@smiley_polygon] くんが

  • Daisuke Ikeda, Hiroya Takamura, Manabu Okumura. Semi-Supervised Learning for Blog Classification. AAAI 2008

を紹介してくれる。2008年1月の NL 研で聞いたような気がするのだが、すっかり内容を忘れてしまっていた。手法的にはなるほどな〜、という感じだが、もう少し大規模なデータで実験してほしかったかな〜 (どういうときに性能が劣化するのか知りたい)。

進捗報告は hirotsugu-e くんで、発表練習。タスクの設定が難しいような気がするのだけど、とりあえず発表は翌日なのでそんなに修正もできないだろうし……。リバネス研究費カヤック賞の採択結果が出ていたが、このテーマでしばらく続けるとしたら、どういうデータにどういうタグを、どのような方法でつけるか、悩ましそう (なにをしても一長一短なので、どうするかは自分で決めるしかないが)。むむ〜。

ウェブデータ、おもしろいデータとおもしろくないデータとあり、どのデータをおもしろいと感じるかは人それぞれなのだが、おもしろいデータにタグづけするのとおもしろくないデータにタグづけするのでは、後者はけっこうしんどかったりする。(全く同じデータでも、人によって「こんなしょうもないことぐだぐだ書くなや」と感じる人と、ツボにはまって「マジウケる」と楽しみながらタグづけできる人がいたりする)