NLP2015 本会議初日: 研究の仕方を学んだ10年間

言語処理学会年次大会の2日目(本会議初日)。朝ホテルから四条通りに出て百万遍行きのバスに乗ると、[twitter:@yuchang] と遭遇。世界は狭いものである。自然言語処理関係者はいったいどれくらい京都に集結しているのだろうか……。今回スポンサーも30社近く集まったようだが、費用対効果を考えると言語処理学会のスポンサーは大変お得であると思う(もっとも、誰に対しての広告かを考慮した上で、だけど)。

今日はポスター発表が2セッションあり、それぞれうちの学部生が2名ずつ発表。

  • 叶内晨, 小町守, 岡崎直観, 荒牧英治, 石川博. 風邪に罹ったのは誰か?−疾患・症状を保有する主体の推定.
  • 北川善彬, 小町守, 荒牧英治, 岡崎直観, 石川博. インフルエンザ流行検出のための事実性解析.
  • 宮崎亮輔, 小町守, 疋田敏朗, 柏倉俊樹. Wikipedia を用いた遠距離教師あり学習による専門用語抽出.
  • 堺澤勇也, 小町守. パラグラフベクトルを用いた教師なし語義曖昧性解消の考察.

である。

前者2件は昨年9月に首都大南大沢キャンパスで Project Next NLP の中間報告会を行ったとき、「ウェブ応用」タスクに2人が参加させてもらったところから発展し、共著者の [twitter:@chokkanorg] さんと [twitter:@ARAMAKI] さんの多大なるご指導があり、ここまで至った、という経緯で、感無量である。同じ大学とはいえ基本的にアウェイなキャンパスでどこまでホストできるか心配であったが、これだけでもワークショップを引き受けた甲斐があったと思う。

(ちなみに言語処理学会の年次大会が最近東京で開催されていない件について、首都大南大沢キャンパスはどうか、という噂を耳にしたが、さすがに800人規模の大会は、現地スタッフが小町一人では無理だと思う……。自分だけでは100人くらいが限界で、学生に手伝ってもらって200人くらいだろうか?)

彼らの発表はそれぞれがそのうちブログに書いてくれることと期待して、後者2件について自分の感想を書こう。[twitter:@marujiruo] くんの発表はトヨタIT開発センターとの共同研究の一部で、自分が興味を持って取り組んでいる情報抽出の研究の延長線である。手が動くので、いろいろパラメータを変えて実験してくれたり、他の人と共通する処理のスクリプトを書いてくれたり(これは昨年に機械翻訳のワークショップに参加したときもそうだった)、自分も distant supervised learning の挙動が分かって勉強になった研究である。

実を言うと今年度ちゃんと distant supervision と向き合うまで、論文を読むとしばらくは分かったような気になるのだが、たとえば松本先生から「それって self training とどう違うの」「これ、昔からある手法やないの」と言われてちゃんと納得してもらうことができなかった。今回はしっかり distant supervision の設定を検討できたので、うまくいく面といかない面が分かったのが収穫である。広い意味では半教師あり学習の範疇に入るだろうだが、名前とは裏腹に半教師あり学習のようにしっかりした理論がある話ではなく、データマイニングにおける一手法かなと思う。そして「昔からある手法」という指摘は恐らく半分正しく、この手法自体に名前がついて呼ばれていなかった、という意味では昔(2000年代前半)からあっただろうが、大規模な教師データとコーパスが存在する、という設定は最近(2000年代後半)のものなので、その設定を含めた広義の「手法」としては正しくないだろう。

最後の[twitter:@zawa9510] くんの発表は、テーマが最後まで決まらなかった研究であるが、たまたま word2vec や深層学習に研究室メンバーの中で興味が高まり、小町がこれまた以前取り組んだことのあるタスクの一つである語義曖昧性解消タスクに使えないか、と思っていくつかの設定で実験してもらったものである。実験結果は芳しくなかったが(恐らくこのタスクの設定と手法の使い方が合っていなかった)、(sentence2vec に実装されている)パラグラフベクトルに関する理解が深まって、個人的には有意義な研究であった。

自分の印象としては、自然言語処理で「単に なんとか2vec を(前処理として)使いました」というのは全く研究になるものではなく、(自動的に生成されたラベルであれ)ラベル付きデータのラベルを見て、タスクや設定に応じたニューラルネットワークを設計する必要がある、と感じている。結局教師あり学習か、と言われるとその通りなのだが、階層性や再帰性を持っているようなタスクでその特徴を活かすことができるかどうかがポイントかなと思う。(明らかに階層性があるようなタスクではなく、言われたら「なるほど」と気がつくような階層性や再帰性が捕らえられて、実験的にも大きく性能を改善できたらおもしろいだろうなー、と)

ポスター発表は共著なので、なにかあったらヘルプに入ろうと思ったが、次から次に聴衆が来て人だかりができていたので、自分の出る幕はないなと思って遠くから生暖かく見守っていた(笑)最後時間切れで適切な比較実験ができなかった研究もあるが、10-12月から取り組んだ卒業研究としては、みんな十分がんばった(去年も今年と同じく学部生が4人いたが、結局〆切に間に合わず1人も発表できなかったのだ)。来年度は〆切がだいぶ早いようだが、来年度の4年生も、同じようにみんな発表できるといいなと思っている。

お昼は hiromi-o さんや eric-n さんら NAIST 松本研の OB/OG と食べる。奈良から京都は電車で1時間半ほどなので、松本研から留学生たちも大挙して来ていて、近況報告をしたりする。xiaodong-l さんが博士号を取得して帰国される、という話を聞いて、感慨深い。彼とは席が斜め向かいだったので、よく雑談をしていたのである(自分自身、海外にいるときは話し相手、特に現地のことをよく知っている人が貴重だったので、できるだけ話してあげようと)。博士後期課程から環境を変えてストレートで博士号を取得する、というのは並大抵のことではない。特に最初の1-2年、研究がうまく行かなかった時期を隣で見てきただけに、よくそこで心が折れずに研究を続けられた、と拍手を送りたい。研究は、どれだけがんばっても1年間成果が出ないような時期もあったりするので、学生諸氏は焦らずくさらず淡々と過ごしてほしい。

あと、ポスターの時間に [twitter:@y8o] 先生とお話しする。自分が修士論文を書いているときアドバイスをくださったのが最初だと思うが、その後現在に至るまで、ときどきお話を聞いてくださったり、逆にお伺いしたりしているのである。

首都大に来て准教授として1人で研究室を主宰し、最近思うのは、大学教員としてのメンターというかコーチの必要性である。必ずしも歳が大きく離れた人である必要はないのだが(大学や時代によって状況がかなり異なる)、似たような境遇でちょっとしたことを話したりできる人がいる、というのは大変ありがたいことで、スポーツの世界のトッププロでも自分以外にコーチングをお願いする、という話を聞いて、非常に気持ちがよく分かる。

博士後期課程の学生も往々にして孤独だが(研究のディスカッションや馬鹿話ができる友人やスタッフがいるのは僥倖である)、大学教員はそれに輪をかけて(研究室の運営に関して)孤独で、業務の多さと身の回りの(私生活も含めた)事情を考慮すると、数年間成果が出ない時期があっても全然不思議ではないと感じるし、「一度成果が途切れると研究費が取れなくなり、研究費が取れなくなると成果が出なくなり、研究のできないサイクルから二度と抜けられなくなる」という話を複数の筋から聞いたりすると、本当に大丈夫か?後戻りできないところにいるのではないか?と恐ろしくなったりする。

手紙~拝啓 十五の君へ

手紙~拝啓 十五の君へ

最近、車ではアンジェラ・アキの「手紙〜拝啓十五の君へ」を聞いているのだが、1時間くらい聞いていると感じるものがあり、ときどき涙が出てきたりする。あとから振り返ったら、いまの選択はよかったと思えるだろうか?と自問自答して、きっとどんな選択をしたとしても後悔はしていないだろう、とは思うのだが、無意識のどこかで怖いのだろう。

ただ、春うららかな日に思索しながらこの文章を書いていて、ああ、自分はこの10年間でいっぱしに自然言語処理の論文が書けるつもりになったが、それを守ろうとして及び腰になっているのだな、と気がついた。思えば25歳のとき自然言語処理の「し」の字も知らない自分が NAIST に来たということで暖かく迎えてくださった方々がいたり、全然将来のことも分からないのに目をかけてくださった方々がいらしたりして、何も持っていなくても、白紙の状態の(26歳で修士1年生という、一般的な感覚からからするとむしろやっかいな)自分を受け入れてもらえてとてもありがたく、文字通り涙が出そうになる。

この10年で得難い経験ができたことは事実だが、新しい領域にゼロから飛び込んでも恐らく10年かければ今と同じように感触がつかめてくるだろうし、これまで色んな方々のガイドがあってここまでできたのを、自分でも切り拓いていく、ということが、自分に求められていることなのかも、と思ったりする。(そう思うと、ずっと胸につかえていた昨日の長尾先生がおっしゃっているようなお話とつながって、晴れやかな気持ちになる)

今回の自分の言語処理学会への参加は、研究的に大きく前進するというものではないが、あとから(たとえば40歳になってから)振り返ると大きなターニングポイントとなっているのかも、と思う。(←転職する、という意味ではなく、今まで以上に種をまく決心をした、という意味である)

夜は若手の会をとうとう「卒業」し、「第三の会」と呼ばれる自然言語処理の30代くらいの研究者の集まる会に出席する。最初お声がけいただいたときはまだ30歳になってすぐで、まだまだ若手、と思っていたのだが、若手の会の委員長を3年間しているうちに、もはやアラフォーの方が近いので、こちらに移動したのである。あと、うちの研究室の学生は、指導教員がいると話しにくいこともあるだろうと思うし、研究室の「あー、それあるある」みたいな話を同世代とできる貴重な機会を活用してほしいと思うのである(自分とは、別に学会の最中話さなくても、大学に戻れば話せるし)。

第三の会では、静岡大に移られたばかりの狩野さんと研究室に関する情報交換を少ししたが、テーブルが松本研 OB ばかりだったので、NAIST の昔話や子育ての話をしたりしつつ、さすがに若手の会ではなかなか子育ての話にはならないだろうなぁ、と思ったりする(笑)子育てに関してはみなさんいろいろのようだが、参考になることばかり。うちの校区の公立小学校はいま7クラスあり(自分が小学生だったころは3-4クラスだった)、どうやら荒れているらしいのだが、教育のことを考えると頭が痛い。教育は時代や場所によって(物理的に数メートルしか離れていなくても、隣の校区だと)全然違ったりするので、なかなか一般化しにくいのだが、30年前から住んでいる地元民としては自分たちの住んでいるところの土地勘はあるので、どうするべきか悩ましいのである。(とりあえず考えないようにしているが……)

2次会は「世界の地酒を楽しむ会」別名関根会に合流。yuya-y くんの最近の研究の話を聞いたりする。博士後期課程に進学してちゃんとトップカンファレンスに通せるようになる学生を育てるって、どのように学部生時代や修士時代を過ごしてもらえばいいのかなぁ、なんて思ったりする。NAIST に来る学生も、M1 で入学した直後にトップカンファレンスに通すことはできないだろうが、D1 になるころにはそういう実力がついていたりして、ただ漫然と過ごしているわけではなく、基本は論文を読んで書く、ということに尽きるのだが、どうすればいいのかと……。