台湾にやって来るのは久しぶり。

またしても娘が6時前に起き、朝から相手をする。21時に寝てくれるようになったのはいいのだけど、6時に起きて1時間ほど一緒に遊ぶなら20時に寝てほしいような?(夜も20時からの1時間くらいは絵本を読んだりかくれんぼしたりお姫様ごっこや電話ごっこしたりしているのである。)

午前中は大学に出勤。

  • Foster and Andersen. GenERRate: Generating Errors for Use in Grammatical Error Detection. BEA 2009.

学習者の誤りパターンを用いて擬似コーパスを生成する話で、ちゃんと読んだのは初めてで、ポイントを押さえた紹介をしてくれたので分かりやすかったけど、ワークショップ論文(NAACL 2009 の併設ワークショップ)のためか詳細が若干不明。主要な貢献も何か分かりにくいような……。

その後我々が Lang-8 コーパスを用いて研究して分かったこととしては、誤りパターンの大規模学習者コーパスからの抽出は絶大な効果があるということで、大事なのは大規模な実データからパターンを抽出する、そして取れたデータの使い方に気をつける(ノイジーなので、ノイズに影響されにくい手法を使わないといけない)という2点である。

特に問題なのは、訂正されている箇所はそこそこ信頼できる一方、訂正されていない箇所は信頼できない(誤りがないので訂正されていないのか、それともちゃんと見ていないので訂正されていないのかが区別できない)ので、訂正されている箇所だけを抽出して使う、ということである。訂正されていない場所が信頼できない帰結として、文脈情報も使えないので、フレーズベース統計的機械翻訳のフレーズテーブルとして使うとか、基本的には置換誤りおよび冗長誤りの検出や訂正に使うといい、というわけである。

昼から八王子に移動して高速バスで成田へ移動。最初羽田かと思っていて羽田に行きそうになったが、行きは成田で帰りは羽田であることに気がついてよかった(汗)中央道が工事だとかで下道で行くと聞いて不安だったが特に問題なく到着。少しラウンジで休んで搭乗。タイガーエア台湾という LCC で、どういうものかと思っていたが、乗客のほとんどが台湾の人。金曜日のイベントに出て土曜日の朝までに帰ってくるにはこの航空会社しかなかったので利用したが、そんなに悪くないようには思う。

到着すると午後10時半で、11時にホテル行きのバスが出る予定だったのだが、入国審査のゲートが長蛇の列で焦る。 なんとか11時5分前に外に出て、迷いながらテンパりながら集合場所を探すと、なにやら同じイベントに参加する人と合流できてホッとする。このバスを乗り逃すとタクシーで行くしかないのだが、タクシーは片道1時間半、日本円にして1万3,000円くらいかかるのである。

そうこうしているとバスの運転手が来てくれて出発。深夜の時間帯だったせいか、3人だけで、自分はシンガポール国立大の Min さんとお話しする。シンガポール国立大ではどういうふうな研究室運営をしているのか、うちではどうやっているのか、などいろいろ情報交換できてよかった。GPU は1枚しかないそうで、深層学習についてもあまり積極的にやっていない(パラメータチューニングしたりするのはエンジニアリングであってリサーチではない、というスタンス)とのことで、確かに余裕のある研究をしようと思うと、あまり深層学習に入れ込まない方がいいのだろう(もはやベースラインのツールなので、最低限やる必要はあるけど)。もうこれだけで今回台湾に来た意義の8割を得たように思う。

PI が1人の研究室だと、学生数は10人くらいに留めておいて、かつ PhD コースの学生を中心とする、というような感じがベストなのかなぁ、と思ったりする。そこから逆算すると、研究室に来る B4 の数はできれば3人にして(南大沢の理工系研究室ではそもそも2-3人らしいし)、大学院から来る(博士後期課程に進学希望の)学生をもっと取れるといいのだが……。M1 の内部進学者が2-3人、留学生が1人、それ以外の外部生が2人(うち1人は文系出身、もう1人は社会人経験者か数学・物理出身など非情報系の理系出身)、みたいな感じになると、研究室の多様性が上がっていいと思うのだけど。(とはいえ今の日本のシステムでは修士の価値が高いので、修士中心の教育システムにならざるを得ない)

ホテルに着いて自分の部屋に入れたのは午前1時。これ弾丸ツアーだなぁ……。

ちなみに前回台湾に来たのは学部の卒業旅行のときで、実に12年前である。読み返すと懐かしいが、全然写真撮っていないので(撮っていたとしても、PHSの中にあってもう取り出せない?)断片的にしか思い出せない。10年一昔、あっという間である。