ちょっと無理してでも発表をすると研究が進む

NL 研初日。ホテルを10時に出て本屋で本を物色。旅行中はあまり荷物を増やしたくないのだが、新幹線の中で読む本を確保したいし、本屋に入るのは楽しいので……。

「看板学部と看板倒れ学部」

を買って読んでみる。こういう本、散漫に書かれていていまいち読んでもすっきりしない。たとえば学部名を変えてどうなるかということがいろいろ書かれているのだが、目についた事例をいくつか適当に取り出して紹介しているだけで、議論も結論も根拠がほとんどない。受験生数の推移は調べれば分かるし、学部学科名の推移も分かるので、たとえば名称の変更と受験生数の増減に (どういう) 相関があるかとか、そういうのを統計的に調べて書いてくれるといいのだけど……

昼から NL 研。どの発表もクオリティ高かったが、一番おもしろかったのは

  • 能地宏, 持橋大地, 石塚満. 潜在トピックを考慮した Bayes n-gram 言語モデル. SIGNL-208.

で、これは N グラム言語モデルでもトピックによって予測したい単語が違うという問題に対する提案。これがあれば、論文を書いているときにはこちらの表現を使いたいけど、ブログを書いているときにはこちらの表現を使いたい、みたいなのを実現することができる。ただ、これまでのトピック言語モデルの問題点としては、トピックが必要な曖昧性のある n-gram は一部であり、トピックを考慮することによって逆に n-gram がスパースになってしまう、というものがあるため、トピックが必要な n-gram と、グローバルな n-gram 言語モデルを作成し、それぞれを混合することで頑健性を高める、という提案。お話を聞いてみたところ、最初うまく行くと思っていたモデルがあまりうまく行かず、いろいろ試行錯誤した結果現在のモデルに落ち着いた、とのことで、変遷を聞いているだけでも興味深い。これは有用性も高い研究だと思う。

そして能地さんって [twitter:@nozyh] さんだったんだ……最近 Twitter アカウントと実名の紐付けがほとんどできていない。

夜は [twitter:@overlast] さん、[twitter:@hitoshi_ni] さんとご飯へ。途中から [twitter:@tomo_wb] くんや [twitter:@yotarow] くん、[twitter:@haplotyper] さん、id:aya_i さんらも合流し、いろいろと盛り上がる。@yotarow くんが明け方まで粘って COLING を投稿したという話を聞いて感服。獅子は兎を狩るにも全力を尽くす、ということである。自分たちは全員〆切が延びてもそのまま修正しなかったからな〜。(2度延長された) COLING の論文執筆、今日の NL 研のスライド作成と発表、そして NLP 若手の会シンポジウムの準備と、本当に大変な数週間であったろうと思う (自分も去年 NLP 若手の会シンポジウムをホストしたが、想像以上に細かい仕事があって大変だった)。お疲れさまでした!

10時半ごろ @tomo_wb くんと自分は分かれ、明日のスライドの確認。@tomo_wb くんも、COLING 執筆と NLP 若手の会シンポジウムでのポスター作成、NL 研でのスライド作成と、複数の仕事を抱えているので、なかなかタフだと思う。今回の NL 研の話と COLING で書いた話との間にいろいろあるのだが、やはり〆切前にがんばると一気に研究が進んだりするから、出すにせよ出さないにせよ〆切を一つの目標に、コンスタントに実験してみるのはよいことだと思った。