これから数年の計画をブレインストーミング

NLP若手の会第5回シンポジウムに参加。おもしろそうな研究発表がたくさん。しかし1時間ではちょっと時間が足りないような……

個人的には東大中川研の黒澤さんらによる「HMM におけるアンサンブル学習」がいちばんおもしろかった(奨励賞を受賞されていた)。クラスタリングでも複数のクラス数のクラスタリングを走らせて全部素性に入れ、機械学習器に最適なクラスタリングを選択させる、という話が最近ちらほら出ているが、この話も複数の HMM を同時に走らせて使う、という意味でなんか似ているなと思う(モデルの尤度による重み付けはしていないそうだが)。

あと東大辻井研の羽鳥さんと Microsoft Research の鈴木久美さんによる「統計的機械翻訳による漢字仮名交じり文の読み推定」も参考になる。実際自分も ChaIME の開発時代統計翻訳のツールを使って同じことをやってみたことがあるのだが、言語モデルのサイズも小さかったし元になるコーパスも少なかったし、あまりうまくいかなかったのだが、羽鳥さんの話では、140万文使ってやったらかなりよくなった、という話だったので、データ量が少なすぎたか、と納得。フレーズをどのように取って来るかについて調べてみるとおもしろいかな? (UniDic はかなり小さい単位で分割してしまうのだが、この研究の提案手法では単語をマージして大きな単位にする操作が入っているので)

@hillbigくんとちょっと雑談で「今回発表はないんですか」という話をしつつ、お互い1年目でいろいろあって難しいですね、というところで落ち着いたり……。結局自分は今年国際会議ネタは0本なので、来年は1本出したいところ。実のところ、せっかく論文書けるポジションにつけたのに全然研究が捗らず(というか研究ネタが思いついても手を動かす気になれず)焦る気持ちが最近まであったのだが、最近あまり焦らなくなった。いいのか悪いのか分からないが、なにをやるかよりなにをやらないかのほうが重要だ、ということを今さらながら思い出し、焦って今後数年のテーマを目の前にあるものの中から選ぶより、もうちょっとブレインストーミングしていてもいいのかな、と思ったり。

お昼は竹橋駅まで歩いて鰻 大作 パレスサイドビル店へ。NTT 研究所の方々とご一緒するが、なんだか NAIST OB/OG グループに (笑) @hitoshi_ni さんから名刺をいただき「Twitter でフォローしています」と教えてもらい、恐縮する。(というか、最近 Twitter でどなたをフォローしているのか全く自分でも分からないので) でもいつこういう会に来ても初めてお会いする方と直接お話することができるので、やっぱりオンラインだけではなくこういうオフラインの集まりにも積極的に顔を出さないと、と思うのである。

午後の国際会議参加報告は、自然言語処理データマイニングの国際会議の参加報告。どういう研究が出てきているのかコンパクトに分かってありがたい。確か去年は忙しくて半分くらいしか聞けなかったので……。特に @issei_sato くんの KDD 参加報告がためになった。データマイニング系の国際会議には一度も参加したことがなく、実は今年の目標はマイニング系あるいは人工知能系の会議に論文を投稿してみることだったのだが、来年挑戦してみたくなる。SDM の〆切は10月15日、というのはちょっと無理だが……

夜は懇親会。少し遅れて行ったせいか、端っこしか空いていなかったのだが、ぼちぼち @hjtakamura さんと話したりなんだり。@ohkuraさんと久しぶりに遭遇したので立ち話をしたりなど。インターンしたい人とか入社して◯◯のタスクした人いませんかね、とおっしゃるのだが、NAIST は専門分野を変更して(情報系の基礎知識を一からつけようとして)来る人が多いので、博士の学生でないと NAIST からはなかなか推薦しにくいかも……。