自分の解きたい問題に本気で挑戦する

今日は朝からずっと東大本郷キャンパスである。

午前中は 1st Workshop on Asian Translation という国際ワークショップで、日中英の科学論文の翻訳タスクに参加していた(我々が提出したのは日中だけ)ので、そのポスター発表である。うちの研究室初の国際会議発表。自分も初めての国際会議発表は、IWSLTという音声翻訳の共通タスクで、同じく日英のフレーズベースの統計的機械翻訳に対し、述語項構造解析を用いた並べ替えによって日本語を英語の語順に近づけて翻訳する、というものだったので、ほぼリバイバルである。

ポスターではいろいろな方がお話しにきてくださり、40分しかセッションがなかったので、全然話し切ることができなかった。今回は日中にも挑戦してみて、どうしても結果がよくならなかったので提出を諦めたのだが、ワークショップ全体の報告を聞くと、他のチームも並べ替えを試したチームは複数あり、どこも今回のデータでは日英も日中も既存の並べ替え手法ではうまくいかなかった、という報告が相次ぎ、我々だけではなかった、とある意味勇気付けられる。

ポスターのときの雑談で NIIのAさんとお話し、言語教育・言語学習と機械翻訳フュージョンについて議論する。割とこれは有用な研究テーマだと思っているのだが、研究費をこのストーリーで書いても全然通った試しがない(実は複数回出している)ので、なかなかお金をつけたくなるような研究テーマではないのかなぁ、と思ったりしている、

個人的には今回のタスクはあらゆる言語対でトップを飾った NAIST [twitter:@neubig] さんの「全部オープンソースで公開しているので、来年は我々が負けることを期待している」という発表がよかった。結局自分も tree-to-string あるいは string-to-tree のようなモデルを使いたいのだが、ちゃんとやろうとすると1年目の学生には荷が重く、結局機械翻訳を学びたてでもなんとかなるようなテーマ・手法に落ち着いてしまうのであった。やっぱり本気で機械翻訳の研究をしたい人にガチでやってもらわないといけないなぁ。

他のチームと比べた成績としては振るわなかったが、研究室としては初の論文だし(これまで日本語の論文すら書いていない)、最初の研究としては挑戦することが第一で、ここからスタートしていきたいと思う。

お昼は NII の H さんたちと生協食堂へ。赤門ラーメンを食べる。東大の H さんと深層学習とについてお話しする。やりたいことは割と明確だが、勉強量が足りていないのでなかなか手が出せない。NLPにおける深層学習だけで、既に30本は読まなければならない論文があると思われるので、とにかく読まないことには新規の研究ができず、過去のテーマを掘り返すしかないのが痛い。せっかく新しい環境なのだから、手分けしてひたすら論文を読んで勉強する、という方法もあるのかな、と思ったりする。

午後は言語処理学会20周年記念シンポジウムへ。ryu-i さんが NAIST テキストコーパスの仕事で受賞されたので、土曜日だが参加することにしたのである。[twitter:@infoplosion] 先生のお話、日経コンピュータビッグデータは人工知能に任せた!という特集も紹介されていて、さすがであった。自分は[twitter:@Nakada_itpro] さんにお送りいただき、たまたま電車の中で読むために持っていたのでドヤ顔で開いてみたが、きっとあの会場で紙媒体で持っていたのは自分だけだろう(笑)最近の機械学習人工知能に関する記事は、かなりしっかり調べられて噛み砕いて解説してくださっているので、研究者としてはとてもありがたい。こういう記事を書く能力を学生がみんな身につけられれば、どんどんブログで解説記事を書いてくれたりして、とてもいい世の中になると思うのだが、そこはやはりプロ。お金を出す価値、あると思った。

招待講演と記念講演は、[twitter:@tarowatanabe] さん、[twitter:@chokkanorg] さん、[twitter:@noricoco] さんたち。いずれもとても刺激的なお話で、非常におもしろかった。

@tarowatanabe さんのお話は、自分は IBIS のチュートリアルやら言語処理学会チュートリアルやら、NAIST 松本研でチュートリアルをしてくださったときも聞いたのでかれこれ4回目で、機械翻訳の研究をしていない人はついてこられるか心配だったが、あとで学生に聞いたところ、テクニカルで一番おもしろかった、と言っていて、逆に意外であった。

@chokkanorg さんのお話は、自然言語処理の研究者としては朝日新聞のようなメディアや企業と付き合うにはどういう苦労とチャレンジがあるか、というお話をされ、精度を100%にしないといけなかったり、逆に精度の問題ではなく説明性の問題があったりする(tf-idf すら、log を取るなんて操作は新聞で説明できないので、単純な頻度しか使えないとか)のは、大変だけどやる価値がある、とおっしゃっていたのは印象的であった。EMNLP の publication chair をされたときの体験をどこかで講演された話をお聞きしたときも思ったが、こういうパイオニアにしか分からない体験を話してくださるのは @chokkanorg さんのすばらしいところで、自分の一歩も二歩も先を行っておられて、感銘を受ける。企業の人と大学の人の付き合い方は、一緒にやるか、こちらから飛び込むか、2通り方法があるが、飛び込む方が楽ではないか、とのこと。自分に身体が2つあればいいのだが、いまできるとしたら、企業にどっぷり入って手を動かしたい学生がいたら、快く送り出すことかなぁ。

@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティックに設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」といったようなことを記述するのである。

自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えていく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いているわけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるようになるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。

一つおもしろかったのは、数学基礎論では問題は基本的に「証明せよ」という形をしていて、東ロボプロジェクトを始めるまで入試に「解を求めよ」という問題がたくさんあることに気がつかなかった、という話。ちょうど SICP(というプログラミングの教科書)を読んでいるところだが、数学の世界では定義を宣言的に書けば終わりかもしれないが、計算機科学(あるいは工学)の世界では解を求める方法まで手続き的に書かないと問題が解けたことにならない、という話が冒頭に書いてあって、こういう違いを一つ一つ埋めていく、というのが東ロボプロジェクトのプロセスなのだと思う。

休み時間に今回のシンポジウムに来ていた学生たちを他の人に紹介したりする。このところ、ローカルホストやプログラム委員長など、気の抜けない役割で研究会やシンポジウムに参加していたが、全くそういうお仕事抜きでイベントに来ると、気楽なものでいろいろ学生たちを他の人たちとつないでみたい、と思うし、実際紹介できる余裕があってよい。自分自身、国内の学会や国際会議に参加するたび、先輩方が他の人たちに紹介してくださって、夜な夜な飲んだりしながら研究が楽しくなっていったので、そういうチャンスをもっと作りたいと思っている。(学生が、こういうイベントに来てくれないと、紹介のしようもないけど、都内の勉強会や研究会、シンポジウムなら、聴講でも交通費は研究費から出すことにしたので、積極的に参加してもらいたい)

帰り、[twitter:@m_matsunag] さんと一緒に本郷交差点のところまで帰る。子育てしながら研究教育しているのが励みになります、と言ってくださって、むしろこちらがチカラをもらう。研究も教育も子育てもどれも一朝一夕に行くものではなく、数年がかりで軌道に乗るものだと思うのだが、じっくり時間をかけて取り組んでいきたい。