NLP 2012 本会議最終日: 先送り症候群になりそうな人は気をつけましょう

朝は荷物をフロントに預け、路面電車。荷物は会場に持って行ったほうが他の方々と一緒に帰りやすいのだが、会場の収容能力を考えると、身動きが取りにくくなる可能性が高く、断念したのであった。

朝一で [twitter:@tomo_wb] くんの発表のセッションなのだが (今回の学会は、毎日どこかのセッションで誰か学生が発表するので、全てどこか行かないといけないセッションがあった)、直前までスライドを直しているようで、最終確認。直前までスライドを直していると、練習する時間が相対的に減り、発表時間の見積もりが前後したり、質疑応答でうまく答えられなかったりするのだが、今回は月曜の練習の段階で厳しかった (他にやることがたくさんあったので、そちらに時間を使っていた) ので、逆に言うと3日間でよくここまでがんばった、という感じである。

  • 水本智也, 坂口慶祐, 小町守, 内海慶, 河野洋志, 前澤敏之, 佐藤敏紀. オークション検索クリックスルーログからの属性値抽出.

この研究でおもしろかったのは、オークション検索のログはウェブ検索のログとかなり様相が異なり、ウェブ検索のクエリやクリックスルーの傾向は広く知られるようになってきたが、オークション検索は恐らくみなさんが思っているようなものとは違いますよ、ということ。調べてみると、オークション検索のクエリログをちゃんと分析した話はないようで、実際のクエリを見てみるとウェブで見られるようなものがオークションではなく、逆にオークションでは見られるものがウェブではほとんどない、といったようなことがいろいろあり、なかなか興味深い。本当はもっといろいろできたら・話せたらよかったのだが、(自分の判断ミスもある) 様々な事情によりなんとも言えない感じになってしまったことがたいそう心残り。(この研究は、ちゃんと世に出してあげたかったのだが……残念かつ申し訳ない)

自分もそうだが、仕事を安請け合いしすぎて個々の仕事に割ける時間が不十分になり、回らなくなることは往々にしてある (誰かから頼まれたものだけでなくても、自分がやりたいと思ったことばかりでも) し、積極的に「これはやりたいことだが自分ではやらず、他にやりたい・やれる人がいたらやってもらおう」などと決断することも大事なのだと思う。

特に学生のうちは、他の人の手伝いをしても研究的にはそんなに重視されず、自分がいくらファーストで論文を出したのかが評価されるので、手伝うなら研究の方向性を決めたりするところまで面倒をがっつり見たほうが勉強になると思うし、ファーストで仕事をするならつまみ食い的に手を出して一つも論文 (=国際会議 and 論文誌) にならないとこちらも時間がもったいないので、論文誌に出すところまで持って行ける仕事を選択的に、そして集中的にやったほうがいいのではないかな。

自分も論文誌になったテーマ以外にやりかけたテーマが同じかそれ以上あるのだが、全部お蔵入りだし、それにかける時間に他のことしていたらと思うことはあるのだが、そうは言っても挑戦してみないとうまくいくかも分からないので、つまみ食い的にでもなにもやらない (全く手を動かさない) よりは、やることに意義はある。

論文誌に論文を書く大変さは「これから論文を書く若者のために」でも繰り返し説かれていて、全くその通り、と何度も膝を打ってしまった (通勤途中に iPad で読み終えた最初の和書である)。

これから論文を書く若者のために 大改訂増補版

これから論文を書く若者のために 大改訂増補版

この本はちょっと表現が冗長で、例があまり気に入らない人もいるかとは思うが、もし仮にまだ論文誌に論文を通したことがない (が、博士に進学する・したなどで、書かなければならない) 人には読むことを強くお勧めする。国際会議に投稿するのと論文誌に投稿するのとではけっこう勝手が違うのだが、この本は論文誌に論文を投稿するときのやるべきこと (あるいはやってはいけないこと) が豊富に書かれていて、大変役に立つだろう。

本筋とは関係ないが、この本のp.223の「先送り症候群」は激しく同意。

(...)
・自分の研究成果を卑下する.データの不十分な点を必要以上に気にし,データの補強や取り直しをしようとする.こういうデータを足せばもっと良い論文になるといった,一見して前向きな理由を掲げることもある.ところが,データを補強してもそれで満足することはない.新たな問題点を見つけ出して,またしても執筆を先送りしようとする.
・執筆途中で何らかの問題(データの再解析の必要性・論理性の再検討・論文の構成の再検討など)が生じると,その問題解決に努力することなく論文を放置してしまう.(...)
・論文に対する厳しいコメントを研究指導者(または他の人)にもらうと,論文を改訂せずに放置してしまう.直すのが大変だ,どう直したらいいのかわからないといった理由で,論文から目を背ける.
・批判を受けると,すぐに論文を根本から改訂しようとする(あるところまでせっかく進んだものをゼロに戻してしまう).ある方針で書くのが嫌になり,別の方針に逃げる.
・他の研究をしなくてはいけないからと,執筆を中断する.ところが,その研究が一段落すると,別の口実を見つけ出して,またまた執筆を先送りしてしまう.(...)
・誰かの研究の手伝いや研究室の事務仕事に精を出してしまう.親切心や面倒見の良さの後ろには,自分の論文からの逃避心が隠れている.

なんだか自分がときどき言いたくなることをここまで簡潔に余すところなく述べてくれていると、爽快感さえある。とは言っても自分も修士のときの研究テーマ、論文誌になったのは実に博士号を取る直前で、着手してから4年以上経っていたので、人のことは全く言えないのであるが……。(でも本当に始末をつけるのは精神力が必要) 自分も現実逃避力が非常に高いので、学生のときは論文誌を書くのが大変だったが、よく共著者の方々は粘り強く待っていてくださったものである。自分も人のことは言えないので他人を急かす気にもならず、こうやって本を引用してみるくらいだが (笑) 上記のような項目に当てはまる人は、ぜひこの本を買って読んでみてくださるとよいかと思う。

閑話休題、@tomo_wb くんの発表、質疑応答で [twitter:@overlast] さんがスーパーリリーフをしてくださったり、自分はタオルを投げ入れるタイミングが遅い (ギリギリになり、もはや手遅れになってから介入して、これはダメですね、となってしまう) ようで、いろいろともう少し早めに動かないといけないなぁと反省。あまり早く介入しすぎると、本人の成長の機会を奪ってしまうので慎重にしたほうがよいとは思うのだが、@overlast さんの絶妙のタイミング、自分も見習いたい……(これはこの半年 @overlast さんと一緒に仕事をさせてもらって、いろんな周囲の人への気配りや配慮に触れ、本当に痛感した)

@tomo_wb くんの発表が終わってから構文解析と文書要約のセッションをはしご。

構文解析のセッションでは、まず [twitter:@kansaidaniel] さんの「単語単位の日本語係り受け解析」は、以前も NL 研で話を聞いたりしていたが、とうとう EDA 係り受け解析器 (いーでぃーえーではなく「えだ」) としてリリースされたらしい。[twitter:@taku910] さんとの質疑応答も興味深かったが、自分としては確かに複合名詞や複合動詞 (+機能表現) はコーパスの中の出現 (トークン) につけるよりは辞書的 (タイプ) でつけておいたほうがいいと思う。ただ、事態性名詞の項構造のような意味関係はときどき複合語外のものを指すので、そういうのは単語単位でコーパスアノテーションしたほうがよいかなと (あるいは辞書には「この複合語は項構造を持つが、項は複合語内にない、という情報を書いておくのだろうが)。

次に [twitter:@haplotyper] さんの「シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用」。CFG より表現力がある (が TAG のサブセットである) TSG という文法を用い、state-of-the-art な英文の構文解析器を作ったという話。やっている内容もさることながら、話し方がすばらしい。段々犯人を追い詰めていくような感じ。自分もこのように話したいものである。シンボル細分化に関しては、最近いろんなタスクでトークンとタイプの違いを考えることがあり、トークンとタイプの間の適切な粒度が決められたらいいんじゃないかなぁ、と考えたりしている。単純にはクラスタリングするのだろうが、クラスタリングするにしても、なにを特徴量に使えばいいのかと……(どの粒度がいいのかはタスク依存だろうし)

文書要約のセッションは、[twitter:@hitoshi_ni] さんから「最近の文書要約は最適化のオンパレード」と聞いていたのだが、確かに機械翻訳を彷彿とさせるレッドオーシャンっぷりである (ちなみに満席で立ち見が出ていた)。聞く分には大変おもしろいのだが、自分で研究しようと思うとなんだか大変そうだなと思う。@hitoshi_ni さんは逆に述語項構造解析みたいなののほうが大変そうだとおっしゃっていたので、たぶん立場の違いでお互いがお互いの研究を見ると大変そうに見えるのだろう。自分は機械学習や統計処理よりは、言語寄りの問題意識で研究をしているので、確かにきれいに問題が解けたら嬉しいのだが、どちらかというと機械学習で解けない例外的な現象のほうに興味があったりして。

お昼は (元) NTT 研究所の方々+(元) NAIST 松本研の方々+(元) 東大辻井研の方々と。[twitter:@XianchaoWu] さんから「[twitter:@kevinduh] さんが NAIST に行ってしまってさびしいです」というお話を聞きつつ、けいはんな機械翻訳の勉強会ができたらいいなという話をしつつ、[twitter:@underspecified] さんから「行きたかった、残念」というお話を聞いたりなど。せっかく近い場所に統計的機械翻訳の研究をしている人が集まっているので、つながってなにかしたいなぁ。[twitter:@tarowatanabe] さんのチュートリアルでも話に上がっていたが、世界のグルーブを相手に戦おうと思うと、日本で各地に分かれてやっていては到底戦えないし、せめて NAIST チーム、できれば日本チームで戦えたらいいなと思ったりするのだ。

午後はポスターを聞きつつあれやこれやの人たちとお話したり。ポスターは山口昌也さんの「複合動詞と構成要素動詞の格要素の対応関係分析」がおもしろかった。たとえば「塗る」という動詞とそれに対応する「塗り込む」のような複合動詞があったとき、2つの動詞は項構造 (格要素) が同じなのだが、(複合) 動詞によっていろいろなパターンがあり、それらを頻度と内省によって考察してみた、という話。問題が起きるのは基本的には多義の動詞があるときなのだが、こういう複合動詞の項構造も解析に活かしたりできそうと思いつつ、未着手……。山口さんの発表の周りには、関係者ばかり集まったりしたが (笑)

甲南大の永田さんとすれ違ったので、一緒に初日のテーマセッションの座長報告を提出に行ったり、ポスターを回収したり (松本研に貼る予定)。ポスター会場に戻ろうとしたら Hisami さんにお会いしたので、一緒に休憩室に行ってみたり。Hisami さんの発表でも質問していた [twitter:@keiskS] くんを紹介してみたが、入力ログを取得する話をもう少し [twitter:@yukino] さんから詳しくお伺いできたりして、有益な時間であった。何回か [twitter:@caesar_wanya] さんを紹介しようとしたのだが、タイミングが合わず申し訳ないことをした……。

夕方のセッションは形態素解析のセッション。たぶん満席になると思ったので一番前の席を確保してやれやれ、と一息つきつつ、IJCNLP で聞いた話が続くなぁ、と思っていたら、ryosuke-m くんの発表があることを失念していたので、慌てて部屋を移動。

  • 三谷亮介, 小町守, 松本裕治, 隅田飛鳥. 極大部分文字列集合を用いたWebテキストの語義曖昧性解消.

この話、タスクとしてはある単語が隠語の語義で使われているかどうかを判定するタスクで、応用としては、たとえばアダルト用語が含まれる掲示板をフィルタしたいとかいうことがある。松本先生が指摘していた想定質問では、これは語義曖昧性解消ではなく文書分類ではないか? と言われるかも、というのがあり、直接文書の有害性を判定するタスクだと思うと文書分類に近いのだが、一応問題設定としては個々の用例に語義をつけるので、語義曖昧性解消である。ただし、[twitter:@tkng] さんからあとで言われたのは、最初からフィルタリング目的なら語義の判定なんてしなくて直接それ (= 文書分類) を解けばよくて、そもそもこの問題 (= 語義曖昧性解消) は解かなくていいのでは? ということで、確かにそれもごもっとも……。

形態素解析のセッションに戻ってきたら、もはや立錐の余地もなく、やばい感じでぎゅうぎゅうに詰まっていて、なんとかがんばって自分の席に戻って[twitter:@taku910] さんの「Web上のひらがな交じり文に頑健な形態素解析」を聞く。単語をかなに開いて書くかどうかは人や単語によるので、正しい形を想定して、その単語がひらがなで書かれる確率 (ひらがな確率) を EM アルゴリズムで推定することで、ひらがな混じり文が来ても大丈夫な形態素解析器が作れた、という話。興味深い。自分たちも同じような問題意識を持っていて、日本語学習者が書いた文章にはひらがなが多いので、[twitter:@tkyf_7] くんが KyTea の「かなもでる」で解析してくれたりしたのだが、どうも誤りが含まれているとひらがな候補が入っていようがいまいがうまく行かないようで、結局単語分割器を自前で作らないとだめかなと思っているのである (そこで一つの方法を試してみたのが、初日に @tkfy_7 くんが発表した内容。まだなかなかベストな方法が分からないが、これはなんとかして作るしかないものなので……)。どうにかできないものだろうか (誤りの種類が多様すぎてどうにもならないのかもしれないが)。

[twitter:@katsuhitosudoh] さんも昼間のポスターで、統計的機械翻訳に適した単語分割とはなんだろうか、というお話をされていて、精度が高いということより、頑健に動くことのほうが大事で、ある文脈ではこのように切れて、別の文脈ではこのように切れる、というように動くより、(乱暴に言えば、単語分割が言語学的には誤っていたとしても) いつも同じように切れてくれるほうがありがたい、ということである。ここから先は自分の感想だが、確かにデータが少ないときは、変に切れて別の単語だと認識されると (いまのスタンダードなやり方では、違う単語だと認識されると処理が違う) 学習に使えるデータ数が減ってしまうので、統一的に切れてくれないと悪影響がありそう。逆にデータが多ければ、単言語の文脈だけかもしれないが、ちゃんと文脈を見て正しく切ってくれたほうがよさそう。学習者の作文の誤り訂正も、機械翻訳の一種と見なすことができるので、たぶん予想は同じで、データが少なかったら統一的に切れてほしいかなと思う。学習曲線を書いてみないと分からないが……

さて、形態素解析のセッションのトリは鈴木潤さんの「拡張ラグランジュ緩和を用いた同時自然言語解析法」。単語分割から品詞推定、文分割まで全部を joint でやる、というすごく壮大な話なのだが、個々のタスクをパイプラインでやるより結果もよくなっていて、なるほどという感じ。我々も (というか [twitter:@keiskS] くんが) 似たようなことをトライしていて (手法もタスクも全然違うが)、大変参考になる。むしろ文分割からしてリアルに問題なデータでこういうのって動かしてみたらどうなるのかな……。

帰りのバスで [twitter:@klmquasi] さんと @kevinduh さんと松本研の話をしたり J 社の話をしたり。2人が子どもの話をしていたので、自分も子どもがほしくなった (笑) 

バスセンターでみなさんと別れ、ホテルのフロントで荷物を受け取り、広島駅でおみやげとあなごめしを購入し、準備万端にして出発 (今回はみずほ)。新大阪まであっという間 (1時間ちょい) だな〜。しかし引っ越していちばん嬉しいのは駅から歩いてすぐ (3-4分) というところだな。自分の人生でこんなに駅が近いところに住んだことがないので、便利すぎてちょっとやばい。