書き込みは汚いほうが記憶に残る

最近 iPad で論文を直接読み始めているのだが、GoodReader で読めば紙で読むのとさほど読後感が変わらないことが分かってきた。ポイントは、メモや下線を手書きで書き込むこと。本文でマークしたいところはテキスト選択してハイライトするときれいにハイライトできるのだが、これだと記憶に残らない。逆に、手書きで書き込むと、当然きれいに線は引けないのだが、あとで見直しても「ああ、これは確かに自分の書いたものだ」と分かるので、頭に入りやすいのである。

手書きで書き込むとよい、というのは先日NTTのコミュニケーション科学基礎研究所に行ったときに教えてもらったので、やはりそういう便利な使い方をしている人に聞いてみるものである。何点は、指で書くとなかなか文字が書けないところなのだが、これもiPad用のスタイラスを買えば相当改善されるらしいので、早速発注してみた。紙で印刷したものに書き込んでスキャンすると、どうしてもOCR誤りとの戦いになるのだが、GoodReaderで書き込めば、元のテキストはそのままで書き込んだ文字や図がオーバーレイされるだけなので、検索性を損なわないのもよい。

目下一番悩ましいのは、Macのディスプレイで表示したPDFに手書きで書き込むのが難しいということなのだが、目の前にPDFがあってもiPadで読んだほうが読みやすかったりするのだろうか……。やっぱり研究室にいたら印刷して読んだほうが手軽かもな〜。

さて、昼から機械翻訳の勉強会。今年度から松本研究室の機械翻訳関係のメインスタッフはKevinさんになったので、よろしくお願いする。次から次にアイデアが出てきて、おもしろいなぁ。研究をやりたくなる感じ。Grahamさんも途中から進捗の話をしてくださったり。M1の人たちがうまくごうりゅうできるとよいのだけど、松本研の M1 の人たちはすでに勉強会だらけで、夏前から参加するのは難しいのかな……。機械翻訳を研究テーマにしたいなら、今からどっぷり浸かってやったら楽しいと思うのだけどなぁ。

Kevinさんと、勉強会の言語についてちょっと話す。自分としては、1人でも英語のほうがよい人がいたら英語にする、というポリシーにしている (別の候補としては、対象にしている言語が日本語なら日本語、英語なら英語、それ以外なら日本語か英語のどちらか好きなほう) のだが、今のところ自分が直接関わっている勉強会はどちらも日本語でやっていて、なかなか全部英語にするのは難しい。

Kevinさん自身は勉強会で「日本語でも英語でも、自分がやりやすい言語で話してもらえればいい、大事なのは言語じゃなくて、相手とコミュニケーションしたいという気持ちだから、伝わりにくかったら努力してもらえればいいし。中国語だとちょっと困るけど (笑)」というポリシーを説明されていて、ああ、素敵だなぁ、と思った。

ただ、M1の人が英語を分かっているかどうか気にされていて、"Did I speak too fast?" などとよく聞かれるのだが、恐らくM1の人たちがポカーンとしていたら、それは自然言語処理や情報系の専門用語を英語で知らないので意味不明なだけで、ゆっくり話しても変わらないんじゃないかなと思う。これは大多数の人が学部のころと専門分野を変えてくるNAIST特有の事情かもしれないが、最初も半年くらいは周辺で話されている会話が日本語であってもちんぷんかんぷんで、しばらくその分野の基礎知識をつけてからでないと、意味分からないだろう。この日記でもときどき書いているが、自分もM1のとき英語で書かれた8ページの論文を読むのに50時間かかったので……。

夕方は5月28日開催のオープンキャンパスの準備ミーティング。今年もツアー担当になった。去年は朝から晩まで死ぬほど忙しかったような記憶が蘇ってくる……。

夜は

  • Xiaohua Liu, Kuan Li, Ming Zhou, Zhongyang Xiong. Collective Semantic Role Labeling for Tweets with Clustering. IJCAI 2011.

を紹介。Twitter のテキストに意味役割 (述語項構造) を付与する、というだけだと単にジャンルが変わっただけの話なのだが、tweet はそれぞれが短く、情報量が少ないので、似ているつぶやきをクラスタリングして、まとめてタグ付けする、というところがちょっと普通の設定と違い (一般的には入力文ごとにタグ付けする)、Twitter 解析っぽくていいかなと思ったのである。(まあ、アイデア一発で、あとはそんなに見所はないのだが……。一応 Markov Logic Network を使う手法とも比較したりしているが、そもそも訓練データが違うので、適切な比較になっていない)

また、エラー分析によると、提案手法で解析できなかったものの大部分 (60%以上) が単語分割あるいは品詞付与の誤りに起因するものである、ということで、英語でもこれくらい単語分割や品詞付与が重要だから、いわんや日本語をや、という形で、ソーシャルメディア解析といって華々しくデータマイニングしたい人も多いのかもしれないが、地道に形態素解析レイヤーの研究をしたり辞書を整備したりすることが大事だ、ということも伝えたかったので、ちょうどよかった。