精度を犠牲にしても理由を知りたくなるのが人間

月曜日はメールが溜まっている……。

午前中、Skypeで相談に乗っていただく。いろいろ貴重な意見をもらい、感激する。持つべきものは仲間だと思う。自分もそういう存在でありたい。

昼はippei-yくんの学内発表。以前は研究室内でM1も発表練習をしていたと思うのだが、いつからしなくなったんだろうか。学内発表の週間くらい前に研究室全体での進捗報告があるのだが、研究室のメンバーを前にした進捗報告で話すべき内容と、研究室外の人たちを前にした学内発表で話すべき内容は異なるし、発表練習じゃないと発表に関する細かい指摘はしにくいし……。スライドを送ってもらって見たほうがいいのかな。

Mac mini が届いたので移行アシスタントを用いてアップグレード。HDDをほぼ使い果たしていて、どうしようもなかったのだ。

今日はそもそも勉強会ばかりなので、勉強会の時間放置していたら完了していた。Mac のアップグレードはものすごく楽である。ときどきシリアル番号を入れ直したり、修復インストールしなければならなかったりするが、そういう問題が起きるのはAdobe製品かMS製品かXcode関係かハードウェア周りの何かなので、大した手間ではない。

というわけで言語教育勉強会。no blogging, no twittering な進捗報告が最近増えてきたが、そういうものであろう。第2回テキスト入力ワークショップの採択論文が公開されている

自分も遅ればせながら年末の入力メソッドワークショップ・飲み会の準備を初めてみたが、全然時間がとれない。う〜む。誰か懇親会場を探すのを手伝っていただけるとありがたいのだが……。

論文紹介は [twitter:@mitsuse_t] くんによる

  • Jenine Turner and Eugene Charniak. 2007. Language Modeling for Determiner Selection. In Proceedings of HLT-NAACL 2007.

で、構文情報を用いた言語モデルで限定詞の誤り訂正を行なうというもの。

そこそこうまく動いているようだが、ネイティブコーパスで評価しているので、やはり実際の学習者のテキストで評価してみないと、どれくらい効果があるのか分からない。

あと、文を超えるような情報は使っていないので誤り訂正モデルとしてはよくない(一度出てきた名詞句が再度出てくるときは a/an じゃなくて the を使う、というような指針があるので、それを無視する手法はどうなのよ、という)、という意見もあるだろうが、大半の誤りはそういう談話的な情報を用いなくても当てられるもので、確かに研究としては長距離の情報を見ないと直せないものがおもしろいのだろうが、精度を上げるにはがんばるべきはそこではないと最近思っている。

ただ、見かけの数字が上がったところで、なんだか当たり前のことを指摘してくるシステムというのも使っていておもしろくないだろうし、結局「どうしてこの書き方は誤りなのか」という根拠を提示してくれるようなシステムのほうが教育的にも望ましいのだろう。(だからこそ決定木が使われたり、非常に少ない独立変数で文章の難易度を回帰したりするのだろうし)

ソーシャルメディア解析勉強会は修士論文の目次発表練習。一度研究会なり全国大会なりに原稿を書いたことがある人は、安心。問題は、まだどこにも (修士論文のネタを) 書いたことがない人たちだが……。

論文紹介は [twitter:@wk_kiyoshi] くんによる

  • Fangtao Li; Sinno Jialin Pan; Ou Jin; Qiang Yang; Xiaoyan Zhu. Cross-Domain Co-Extraction of Sentiment and Topic Lexicons. ACL 2012.

で、転移学習の枠組みで「(カレー) はおいしい。」という評価表現と、「カレー(はおいしい。)」というトピック表現を同時に抽出するという話で、斬新さはないがなるほどなという研究。転移元のタグ付きデータがあり、転移先は生コーパスしかない、という問題設定で、評価表現とトピック表現からなる二部グラフを作ってブートストラップする。実験設定が微妙なところはあるが、手法は実装もさほど難しくなさそうだし、性能がよいというのもそうだろうし、いいんじゃないかと思う。

ただ、抽出方法が Espresso にかなり似ている気がするのだが、全く言及がない……。(HITS のようなスコア付けだ、とは言及されているのだが)