新しい研究テーマを始める

明日は午前中来客対応、昼から東京に移動し、夜にミーティング、そのまま1泊なので、今週中にやるべき仕事をやっておかねばならず、巻き巻きでお仕事。

午前中、Kevin さんといろんなジャンルでの統計的機械翻訳と、日本語の形態素解析 (単語分割) について話す。長いのから短いの、いろいろある。翻訳に適した単語分割の話は以前も書いたが[twitter:@katsuhitosudoh] さんも調べてらっしゃるし、両言語を見て最適な単語分割にする手法とか、あるいは全部文字単位でやっちゃえとか、いろいろ研究はあったような気がする。

昼過ぎ、機械翻訳勉強会。意外と松本研の人も来ている。Kevin さんも [twitter:@neubig] さんも「松本研で機械翻訳をやっている学生は博士ばかりで、中村研で機械翻訳をやっている学生は修士ばかりで、だいぶ差がある」と言っていたが、今日は松本研から参加の修士の人も多いような?(1学期目は授業と被っていて出られなかったのかもしれない)

午後、[twitter:@kensuke3238]くんと学内実習の第1回ミーティング。夏休みまでは月1回ミーティングし、タスクの説明と予備知識になにが必要かを説明し、8月に入ったら週1回ミーティングにして一気に実装する予定。タスクは既に取り組んでいるものなのだが、手法を新しいアプローチにしたい、という話なのである。いろいろ説明していると、あれもこれもと考えて楽しくなってくる。一緒にやってうまく行くかどうか検証してみたい。

夕方、ソーシャルメディア解析勉強会。前半はhirotsugu-eくんの進捗報告。昨日に引き続きの進捗だったが、ほとんど内容が被っていなくて、議論も盛んでとてもよかった。結局1時間フルで使ったが、いろいろ意見が出ておもしろかった。個人的にはせっかくかなりの分量タグ付けしたデータがあるなら、それを全部捨てるのはもったいないと思うのだが……。(問題点が分かったから新たにやり直したい、というのはあるだろうが、結局はどれかに決めてやらないといけないし、どのタグセットでも長所と短所はあるので)

後半は hiroshi-t くんによる論文紹介で、[twitter:@hjtakamura]さんの

  • Hiroya Takamura and Manabu Okumura,"Summarizing a document stream", In Proceedings of the 33rd European Conference on Information Retrieval (ECIR 2011), April 2011.

を紹介してくれる。文書要約タスクというよりは、テキストのストリームのクラスタリングというのは普通の文書のクラスタリングとはちょっと違い、おもしろいのかもしれず。結局時間付きの述語項構造のクラスタリングをすることになるのではないかと思うのだが……。(頑健に動かそうと思うとそうは行かないので bag-of-words に落ち着きそうだけど) 

夜、論文誌投稿論文へのコメント。そろそろ最後の仕上げかも。今月中に3本出せるかな。