見切り発車は黄信号

午前中、言語教育勉強会。hiromi-o さんが新しくなった勉強会にリアルでは初参加 (いつもは Skype 参加)。来年3月に広島市立大学で開催される、言語処理学会年次大会で発表したい人のタイトル・概要・目次発表。当日まで何人が出すか分からなかったのだが、3人が発表してくれた。みなさん一応なんとか書けそうな感じではあるが、どういう方針で書くか、あとタイトルをどうするか決めるため、2人は2日後にもう一度やることに (まあ、たぶん大丈夫だろうと思うけど……)。

ばたばたと自分関係の年次大会に関するタイトルと概要を用意して共著者にお送りしたりなど。本来もっと早く送るべき情報で、今年の抱負に「企業の人には企業のロジックがあるので、それを最大限尊重する」と書いてあったくらいなのだが、大いに反省する……

夜お渡しすることになっているタグづけ作業用のマシンのセットアップ。なんだかんだとノート PC はあったらあったで使いますな〜。

午後、機械翻訳勉強会。shuhei-k くんが

  • Michel Galley and Christopher D. Manning. Accurate Non-Hierarchical Phrase-Based Translation. NAACL 2010.

を紹介してくれる。実はこの論文、去年の6月に自分が同じ勉強会で紹介したことがあるのだが…… (事前に研究室内 SNS で告知してくれたら気がついただろうが、今回はアナウンスがなかったので、直前まで気がつかなかった) まあ、そのとき shuhei-k くんはこういう手法に興味はなかっただろうから、仕方ない (し、中村研の方々は去年の勉強会は知らないので、2回同じ論文紹介を聞いているのは半分以下)。

ともあれ、論文紹介より、そのあとの質疑コメントで、松本先生が kaoru-ya さんの Prefixspan を用いてギャップを許した対訳フレーズ対を取得する研究の話を紹介してくれたのが参考になった。確かに、やっていることは (2010年の NAACL で発表された上記の論文と) ほとんど同じで、10年以上前に発表されているし、頻度で足切りしたりできるという利点もあり、なるほどなぁ、という感じ。こういう「昔似たような話をやったことがある」という話はおもしろい。温故知新というか。

進捗報告は thichin-t さん。コーパスを単言語コーパスから対訳コーパスに変えていろいろと調査。あとはもう少しプログラムをする必要があるので、shuhei-k くんにサポートを託す。松本研、前はあまり先輩と後輩、あるいは同期同士での助け合いはなかったと思うのだが (研究自体が各人独立していたせいもあるが)、最近は割合みんな融通・協力しているような気がして、素敵だなと思う。めんどくさい処理は誰かが一度やればいいたけだし、得意な人が書けば一発で終わるようなところは助けてもらうと大幅に時間を短縮できるし。

意味談話解析勉強会。こちらはまず論文紹介。

  • Long Jiang, Mo Yu, Ming Zhou, Xiaohua Liu, Tiejun Zhao. Target-dependent Twitter Sentiment Classification. ACL 2011.

を hiroshi-t くんが紹介してくれる。やっていることの新規性がよく分からないのだが、Twitter でやっている、ということが恐らくいちばんのポイントなのに、実際に Twitter 独自の解析モデル (ツイートをノードとするグラフを考えたとき、時間が近いツイートやリプライ、RT の間にそれぞれエッジを張るとか) の部分は詳しく説明されていなくて、この論文だけ見ても内容が分からない (Twitter のテキストに対する詳しい分析がなされているわけでもない)。これが ACL というのはちょっと疑問。

後半は言語処理学会年次大会に出したいという人の進捗報告。ryosuke-m くん、[twitter:@shirayu] くんはそれぞれ共同研究関係で出すことを聞いていたので、どういう内容か確認。kodai-t くんも、前から結果が出たら出したいと聞いていたので、どういう結果か確認。hiroshi-t くんたちが出したいとは聞いていなかったが、出したいならサポートしたいのでどんな内容か聞いてみるが、タグづけがスタートもしていない状況での見切り発車は危険なので、水曜日にもう一度話を聞くことに。他の人も実験結果が微妙なのでもう一度聞きたい人は、水曜日にもう一度聞かせてもらうことに。

他の人からも相談されたが、内容が煮詰まってないところを無理に発表してもあまりいいことない (「早すぎる最適化」になってしまう) し、外部で発表するのは曲がりなりにも結果が出てからでいいんじゃないかなぁ。周りが対外発表に申し込んだりするのを見て焦る気持ちは分かるのだが、もしやっている内容に不安があるなら、適宜スタッフのところまで話しに行けばいいと思うし……。M1 の人でも10月から研究を始めても (ひとつのことを10-12月の3ヶ月やれば) 十分報告できるような成果はできるし、逆に言うと秋口からはやることを決めたらさくっと実装して (評価用) データを作って解ける問題と解けない問題を分析する、ということをやるとよいのではないかな。

夜、chitose-s さんと hiromi-o さんと NAIST 誤用コーパスのタグづけミーティング。現役の日本語教師のお2人のお話、大変参考になる。専門家がいないと全然手も足も出ない、というのはこういうことか……。いまのコーパスはいまのコーパスで hiromi-o さんがコツコツと仕様を作成されたものだが、作成のときから関わっていればもっといろいろ分かったのかなと思ってちょっと残念 (hiromi-o さんがこのコーパスのタグづけをされていたとき、自分は別の研究をしていたし、そのときは言語教育の研究をその後するなんて思っていなかった)。このあたり、一度時間をとって勉強したいな〜