アニメにもゲームにも黒船襲来。

週末お泊まりしたので午前中はひたすらメールの処理。

昼@otoritoriくんの研究発表を聞きにいく。先週の水曜日研究会で聞かなかったので、最後に聞いたときからだいぶ変わっていておもしろかった。松本研ではあまりM1の研究発表で論文紹介する人はいないのだが、こういうのもいいのかもしれない。

午後意味談話解析勉強会で takahiro-t くんが

Fabian M. Suchanek and Gjergji Kasneci and Gerhard Weikum. YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia. WWW 2007.

を紹介してくれる。WordNet の階層構造に Wikipedia から取ってきた名詞に関する知識を入れたら、ものすごい規模で人手とほぼ同じ95%の精度のオントロジーができました、という話。
確かに精度はたいしたもので、これが現状決定版で使われる理由も分かるのだが、Wikipedia から取れる知識をヒューリスティックにルールをひたすら書いてかき集めました、という感じかな。日本語 Wikipedia でやったら「声優の名前」「駅の名前」とかばかり取れたりして。

こういうデータって Google の WebTables のように大規模にウェブをクロールして取って来るといいと思うのだけど、あまり自然言語処理的ではないかも。

Michael J. Cafarella, Alon Halevy, Daisy Z. Wang, Eugene Wu, Yang Zhang. WebTables: Exploring the Power of Tables on the Web. VLDB 2008.

検索クエリログもクリックスルーログもセッションログも使えず、クロールしたデータしか使えないとすると、言語学的な手がかりだけで戦うのは相当苦戦するだろうし、属性的な情報を取りたければリスト構造とか表構造とか、そういうものをなんでも駆使すればいいんじゃないかと思っている。

実は今回松本先生が初めて意味談話解析勉強会に参加してくれたのだが、やはりスタッフが2人いると全然勉強会違うな〜。自分も入学直後の M1 の人たちに「スタッフが2人以上出ている勉強会には勉強のために顔を出すとよい」といつも言っているのだが、スタッフ1人だとその人が言う意見に反論したり補足したりする人がいなかったりするのに対し、スタッフが2人以上いるとそこでインタラクションが起きるので、門前の小僧状態でやり取りを聞いているだけで勉強になるのである。

質問の仕方と答え方を学ぶのも大事だし、答えるのが難しい問いというのもあったりして、問いには必ず答えがあるわけではなく、答えが分かっていない問いこそ意味があり、研究ネタになるのだ、ということを体感するのは大事かなと。学部までだと答えがある問いしか扱わず、先生が知っている答えをいかに速く正確に出すかが優秀な人が優れていると思われがちだが、大学院だとそれは必ずしも正しくないので、ギアをスイッチしないといけないのだと思うのだ。

また、教科書や論文ばかり読んでいると「こういう設定のときはこうなるはず」と想像して話すことが多くなってしまうのだが、経験を積んだ教員や企業の研究者の人と話すと「いや、実は同じことX年前に試したことがあって、そのときはこういう理由でうまくいかなかった」みたいな話が聞けることがあって、想像で話すのではなく経験から話す迫力というのを体得したほうがいいと思うし、うまく行こうが行くまいが、ちゃんと実験してシロクロつける、という習慣は大事である。

特に工学の場合、あれこれ考えて「これなら行ける！」と万全を期して実験するよりも、とりあえず簡単な手法で80%うまく行きそうならやってみて、あと20%をどうするか考える、とにかく80%やってみてから考える、というようにすると、段々80%の実装にかかる時間が減ってきて、どんどんサイクルが回りやすくなるのかなと思う。(当然無駄になる実験も産まれるが、それは必要な「失敗」なのであろう)

夜、Worldjumper の方とご飯。この掲示板、機械翻訳を使っていて、ユーザが自分の言語で書き込むと、それを10数言語に機械翻訳して表示し、他の人の書き込みも自分が設定した言語に自動的に翻訳されて表示される、というおもしろい掲示板で、確かに翻訳はいろいろとあやしいところがあるものの、ちゃんとコミュニケーションの道具に使われているんだなぁ、と感慨深いものがある。

こういうサイトって、収益がどんなところから上がるのかもたぶん重要だと思うのだが、いまの収益はフィギュアの販売代行がけっこう大きいそうで、なるほどなぁ、と納得。漫画やアニメはネットで(画質さえ文句を言わなければ)いくらでも見られるので、海外の人に取ってはあまりお金を落とす場所ではない。

先週土曜日の研究会の懇親会でも櫻井さんは「アニメでも公開されるとたちまち世界中のボランティアが字幕をつける。映画でも、こっちがお金を払って頼んだ翻訳家は、時々「よく分からないけどとりあえず訳せばいいか」と訳すことがあるが、ボランティアの人はアニメの世界観が好きで「この単語は前作の第4話のこの話を受けているんだから、この訳は間違っている！」と無料でつけてくれる字幕のほうが遥かに優れていることも少なくない」とおっしゃっていたが、どこから収益を得るのかはなかなか難しい問題なのではないかと思う。

そういう観点ではフィギュアは物理的に実体が手元にないと意味がないので、お金を落としてもらうには適しているのかもしれない。(また、海外のユーザも自分で日本のヤフオクや通販なんかを通じて買うよりは、worldjumper みたいに英語で受け付けてくれるところを通じて買う方が、少し高くても安心安全のようである)

日曜日、「坂の上の雲」を見たあと NHK スペシャルの世界ゲーム革命を見たのだが、知らないうちにゲームの世界ってすごく進んでいるのだなぁ、と思った。自分などはファミコン・ゲームボーイ世代で、(男兄弟4人だったし)1日何時間もゲームやっていて、他の人と比べると相当ゲームはやり込んだ感があるのだが、もはやここまで来ているとは。売り出す前のテストでテスターの脳波を計測して、飽きている脳波が出ていたらクリエイターに突き返すとか……。(再放送は12月20日深夜0:15〜らしいので、見逃した人はチェック！)

あと、MS の Kinect が最近話題になっていて、いろんなデータを簡単に取得できるのでエンジニアのおもちゃにちょうどいいから流行っているのかと思いきや、全く指で操作するコントローラーなしで操作できるのか！　こういうの、昔はファミリートレーナーとかあったが、ボタンの接触が悪くて飛び跳ねたりしないといけなくて、集合住宅にいた自分たちなんかはプレイしにくかったのだが、これはおもしろいなぁ。ファミ通.com の動画を見ると雰囲気分かるかも。id:masayua さんが Wii Fit を使った依存構造解析器(を用いた心理言語学実験)について今年の言語処理学会で発表していたが、これは Kinect 版も作ってほしい (笑)

自然言語処理のネックは見栄えのするデモがないことだと昨今思っているのだが、こういうお手軽デバイスで楽しいゲームができたりするといいかなと思う。

ちなみにこのデバイスに日本語入力を搭載しようと思ったら、どうやるのが一番いいんだろうか? (笑)