困難であっても現実のデータと向き合う

梅雨に入ってから洗濯するタイミングが悩ましい。梅雨前は雨が降りそうかどうか天気予報を見てから洗濯するかどうか決めていたが、最近はそもそも部屋干し前提なので、とにかく朝時間があるときに洗濯しておくしかなくなってきた。

午前中、7月の国際会議のホテルを取り忘れていたのでおもむろに検索してみたが、会場の近くは全部満室。プログラムが出てからにしようと思っていたら全然公開されないし、早く動いておくんだった……。結局1時間ほどかかってなんとか徒歩でも行けなくはない程度のところに決める (残室1部屋)。しかしここから毎日通うのかと思うと、ちとブルーである。どうしようもないけど……。

昼、メールの返事を書いたりなんだり。最近データは Dropbox で渡すことが多いのだが、ファイル単位で共有できないのがな〜。Google Docs はその点ファイル単位で細かく制御できるのはいいのだが、複数の Google アカウントを持っている人は、共有の招待をもらったアカウントでログインしないといけなかったりして面倒くさいので (というか自分自身 Google アカウントが3つあって至極不便なので) 、勢い Dropbox になってしまうのである。

午後は機械翻訳勉強会。今回は NAACL HLT 2012 論文読み会で、1人持ち時間10分でバンバン論文紹介していく感じ。自分は用事があって最初の2本しか聞けなかったが、こういう論文読み会もいいな。(7月にはCJE++勉強会でACL論文読み会が予定されているようだが)

夕方、業者の方から最近の計算機事情を教えてもらう。学部生のころはサーバ管理の真似事もやっていたのである程度追っかけていたが (一時期毎週秋葉原に行っていたりとか)、いまは追いかける動機もなければ、そんなことをしているくらいなら論文の1本でも読んでコードを書きたいので、受動的になってしまうが、餅は餅屋、それぞれの人がそれぞれ得意なことをやるのがよいのではないかと思う。

4年契約くらいのものを入れるとき、契約期間満了まで自分は松本研にいない可能性のほうが高いのではないか?といつも思う。結局D1のとき納入された機材の契約が今年度一杯で終わるので、前回のときの予想は外れたわけだが……(自分は使わないと思ったので、ベンチマークテストを用意したり、仕様を詰めたりとかは shuya-a さんたちに全部お任せしたし)。自分の任期はもうあと3年ないが、前回と同じような感じかなぁ。

夜、ソーシャルメディア解析勉強会。ryosuke-m くんが

  • Linlin Li, Benjamin Roth, and Caroline Sporleder. Topic Models for Word Sense Disambiguation and Token-based Idiom Detection. ACL 2010.

を紹介してくれる。タイトルと内容がずれているような? この論文の売りは言い換え知識 (WordNet) を使って文脈を拡張することで語義曖昧性解消などの意味解析タスクの性能が向上した、ということだと思うが、そういうタイトルでもストーリーでもなく (たとえばトピックモデルと言っている割には実験はそれに対応していない)、よく通ったな、という感じ。(通る水準にない、というわけではなく、落とされても仕方ない、という意味で) 個人的にはこの論文の Model 2 と呼ばれている手法、つまり語義を当てたい単語と文脈の類似度が最大になるものを選ぶ、という部分で、距離学習できないかなぁ、と思ったりしていた。 

進捗は kiyoshi-k くんが最近の実験とタグ付けについて話してくれる。けっこうデータもできてきているようである。実際研究としてどこに集中するかという問題はあるが、作ったアノテーションを再利用性の高いデータとして公開できたら、少なくともその部分だけでも貢献であるように思う。

彼のタスクとは別に、いま楽天のレビュー記事に係り受けをつけているのだが、けっこうスペル誤りが多いようである。京大ブログコーパスは、ブログという割には (京大生が書いたから?) ほとんどスペル誤りがなく、スペル誤り訂正の評価データとして微妙な感じだったのだが、むしろこっちのほうがリアルでいいのかもしれない。松本先生曰く、形態素係り受けのタグ付けに使っている ChaKi が元テキストの文字数が変わるような状況を想定していないため、ややこしいことになっているそうだが (爆)

研究だとそんな破綻した (?) テキストを対象に問題を解こうとしても貢献が分からないので、ボトムアップにできるところを明らかにしつつ前に進むために、ある程度現実から乖離した設定で実験したりする。自分も修士のころは「こんな現実離れした設定でやっても使えないじゃないか」と思ったものだが、その後研究にどっぷり浸かるようになって、そのようにする理由も分かるようになったし、それはそれで正しいのだとも思う。

その一方、現実で (こんなウェブテキストでも) 言語処理しなければならない人たちにとって、こんな設定で研究していていいのだろうかとも思うし、自分が Apple で働いていて気持ちがよかったのは、現実的になにができるからどうする、ではなく、いまやりたいこと、最終的にやるべきことは何だ、というところから出発し、トップダウンにそれを実現するための方法を考えていく、という順番だったからかなぁ。こういう手法が流行っているからどうこう、というのではなく、こういう問題があるからこに手法が有望そうで試してみよう、とかいう流れであり、自分にはそれが自然に思えるのだ。

とはいえ、これもどちらかがよい、というものではなく、バランスの問題であり、臨機応変に対処できるというのがよいのだろうな〜。