Mac がネットにつながらないとき iPhone 経由で論文の添削をする方法

朝5時に起きて新幹線で移動。最寄りの桃山駅近くのローソンに寄っていこうかと思いきや、今日までで閉店だそうで、なにも買えず……。このローソンの ATM から引き出すと、毎回新札が出てくるので、重宝していたのだが。

新幹線の中で添削。今回は添削が多そうだったので、悩んだ末 11 インチの MacBook Airではなく13インチのほうを持参したのは正解であった。添削x2に予想外に時間がかかり、自分のスライドが (9時までに送らないといけなかったのだが) 完成せず、東京で乗り換えてからスライド作成。

今回は第4回最先端NLP勉強会という集まりに声をかけていただいたので、論文紹介をしなければならないのであった。この勉強会、元々は東大の辻井研のメンバーを中心に関東で開催されていたそうなのだが、今年は東北で開催することになったそうで、自分もちょうど NLP 若手の会シンポジウム に参加するので混ぜてもらったのである。

白石蔵王駅で降り、タクシーで会場に向かう。途中、今日消印有効の郵便を出す必要があり、郵便局に寄ってもらう。昨日までに送ることができればよかったのだが、仕事が立て込み過ぎていて送れなかったのだ。宛先は京都なのだが、受け取った人も、京都に住んでいるのに、なんでこの人は蔵王から送っているのだろうか、と不思議に思うかもしれないが……。

お昼ご飯からなんとか合宿に合流。自分が今回選んだ論文は

  • Adam Pauls and Dan Klein. Large-Scale Syntactic Language Modeling with Treelets. ACL 2012.

である。例のごとく、スライドは Speaker Deck にて公開 している。(一応最後に勉強会のときの質疑を追加しておいた。)

いろんなタスクで長距離の依存関係をいれていきたいというのは前々から考えているのだが、古くからあるトリガーモデルやキャッシュモデルと比較しても効果が高く、かつ実装が簡単な手法なにかないかと思っていたので、こういうのが出てくるのは嬉しい。ただ、論文を読めば分かるが、ルールは言語ごとに作り込まないといけないだろうし、こういう人手のチューニングがなく、理論的にも美しいのが [twitter:@haplotyper] さんの手法だと思うので、もっと人手によるチューニングなしでこういう簡単な実装の言語モデルが作れないかなぁ。(それが deep learning だったりするのだろうか……)

今年の ACL/EMNLP には自分は行っていたので聞きたかった話はあらかた聞いていたのだが、NAACL には行っていなかったので、[twitter:@jr_ume] さんが紹介してくれた

  • Ross Israel, Joel Tetreault, Martin Chodorow. Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Text. NAACL 2012.

が予想外におもしろかった (自分も読みたいなと思っていたが、他の参加者がどれだけ興味があるか分からず躊躇していたら、質疑はかなり盛り上がっていたので、これはこれでよかった)。タスクとしては、英語学習者のカンマの使い方の誤りを検出・訂正するタスクである。簡単には、ネイティブの書いたテキストからカンマを消して、もともとあったところが正しく必要だと推定できるか、とやればよいのだが、必ずしも学習者の書く英作文のカンマの誤りはネイティブの誤り方と同じとは限らないので、ちゃんと学習者のテキストでやることに意味はあると思う。手法的には CRF で系列ラベリングとして解くというので新しさはないが、カンマの使い方に関するルールが30通りあるとか、ちゃんと解くべき問題を解いている感じで、自分的観点からは、よい研究だと思う (というか、英語でもカンマを打ちすぎることがあるので、いつは打ってはいけないか、教えてほしいのだけど)。

カンマを誤って使っていることで構文解析が失敗したりすることもあるとのことだが、構文解析が失敗することでカンマの誤りの検出に失敗したりすることもあるだろうし、この2つのタスクは同時に解くのが全うな方法なのではないかな。人間は直観的には構文解析をしてカンマを打つか打たないか判断していると思うし。実は punctuation に関する誤りはコーパスによっては非常に多いので (上級者になればなるほど、簡単な誤りはしなくなる)、誤りを減らすという意味では効果が高いのかもしれない。もっとも、典型的な日本人の英語だと、これはあまり関係ないかもしれないが……。

勉強会会場はインターネットにつながらないのだが、iPhone でメールを見ると、日本時間日曜日15:59〆切の国際会議 (COLING) の原稿のチェックが2本来ていたので、iPhone でチェックしたりする。iPhone 4 なので、読めなくはない。あるいは、電子リーダーで読むことを想定して (ある意味変態的ではあるが) スタイルファイルを作成した、と書いてあったので、たまたまかもしれないが。

木曜日に松本先生が「COLING に書いてはどうか」と修士の学生に勧めたと聞いたときは、さすがにそれは本気だと思わなかったので聞き直してしまったが、メールで PDF が来て本気だったのだということを知り、なんとかがんばってコメントする。せっかく書いてくれたのに、なにもコメントできずに投稿しなければならないと、申し訳ないし。

しかし合宿所からインターネットが使えず、iPhone でなんとかできないか、と試行錯誤した結果、Papers を使えば Mac とファイルがやりとりできることが分かり、USB ケーブルでつないで操作。たとえば Mac の PDF ファイルを送信するときは

  1. USB ケーブルで iPhoneMac をつなぐ。
  2. iTunes を起動する。
  3. バイスの「App」に行く。
  4. 一番下にスクロールして、「Papers」を選択。
  5. 「Papers の書類」で「追加…」をクリック。追加したいファイルを追加。
  6. 「同期」をクリック。

こうすると iPhone の Papers で追加した PDF が出てくるので、ファイルを開いて「Share→Sharing paper」で「Email Paper」を選択すればメールの添付ファイルとして PDF を送ることができる。Papers は有料アプリなので、購入していないのであれば、無料アプリの Mendeley でも同様にして iPhone の Mendeley にファイルを転送し、共有すれば、メールとして送ることができる (添付ファイルではなくサイトからダウンロードするリンクを送る形だが)。

iPhone で受け取ったファイルを Mac で読むときも同様にして、メーラで添付ファイルを受信し、「このアプリケーションで開く」で Papers で開けば Papers にインポートされるので、あとは USB ケーブルでつないで「Papers の書類」を表示させ、「PDFs」フォルダを選択して「保存先」を押して選択し、同期すれば、PDFs フォルダの中身を転送してくれる (全部転送になるが……)。

結局夕方からずっと添削・コメントしていて気がついたら夜の12時。懇親会にも出たかったが、仕方ない。むしろ今回論文を書いている学生の人たちはみんないろんな事情でほとんど時間がない中執筆しているので、できるだけサポートしてあげたいし、自分が手伝えることがあるなら可能な限り手伝いたいと思っているので (裏を返すと、この次の国際会議の〆切は3ヶ月以上先なので、がんばりどころは今ということ)、まだ手伝えることがあってよかったと思う。前々から一緒に研究していた2人の論文は、もう自分は何回も見ていて、ほとんど手伝えるところはなかったので。

しかし一方で 1st author として論文を書いていたはずの松本先生が戦線離脱したと聞いて、やはり2日で書くのは厳しかったんじゃないかと思った。水曜日に COLING のスタイルファイルについて質問していたそうなので、書き始めてらしたのだろうが、フルタイムで書いたら2日で書けても、松本先生の最近の仕事の多さは尋常ではないので、論文執筆以外の全ての雑用を断らない限り、無理だろうなぁ。共著の論文を送ったり、コメントをほしいとメールすると、ものすごい勢いで返事が返ってきていたし、共著の論文が多いだけで筆頭で書くのは厳しくなるのだろう。(そんなことを言っていると、自分もどんどん筆頭で論文を書く時間がなくなっているのだろうかと思ってしまうが。)