人の褌で相撲を取らないために

寝るときマスクをして眠るの、以前は慣れないで寝付きにくかったのだが、最近は慣れてきたので気にならなくなってきた。

朝起きて原稿にコメントを入れたり。曜日の感覚はあるのだが (休みの日に温泉に行ったりするから)、日付の感覚がなくなっている……。

午前中、消毒のために歯医者。また抗生剤とガーゼを詰めてもらった。詰めるときは痛いのだが、詰めてからガーゼが取れるまでは全く痛くない。早く毎日こうなってほしいものだが……(夕方ガーゼが取れたらまた痛くなってきた)

昼過ぎはずっとスライド作成。土曜日の研究会で国際会議の参加報告をすることになっているのだが、歯痛と風邪で準備ができていなかったのである。とはいうものの、なんとか2時間程度で形にする。

午後は機械翻訳勉強会。tetsuo-s くんが

  • David Chiang, Yuval Marton and Philip Resnik. Online Large-Margin Training of Syntactic and Structural Translation Features. EMNLP 2008.

を紹介してくれる。いくつかトピックがあって、minimum error rate training (MERT) を MIRA を使って置き換えるという話と、統語的な素性・構造的な素性を入れるという話があるのだが、今回は前者について重点的に紹介してくれて、最初はよく分からなかったのだが、正例負例と適当に持ってきて教師あり学習するという問題設定か。確かに MERT の最適化はけっこう面倒くさいし、素性の数が数十しか使えない (いまの自然言語処理の研究では素性数が100万を超えていても珍しくないのに!) 原因にもなっているし、MIRA にすることで素性の数が増やせてめでたし、ということのようだ。どういうふうに正例と負例を作っているのかが興味あったのだが、いまいち分からなかったので、また今度見てみよう。

実はこういうシステムの出力に依存して訓練事例が変わるような手法の最適化は割と難しくて、下のシステムの精度がどれくらいあるかとか、下のシステムの性能に上のシステムがどれくらい敏感かとか (少しくらい間違っていても、首尾一貫して間違っているなら上のシステム的には問題がないこともある)、いろいろ関係してくる要因があるのだが、どうやるのがベストなのかよく分からない。自分がこの問題によく当たるのは、述語項構造解析器を作るときなのだけど、一度時間を取ってどのように (疑似) 正例と (疑似) 負例を作るのが述語項構造解析に向いているのか調べてみたいなぁ。

進捗報告は shuhei-k くんで、水曜日の研究室全体の進捗報告の練習的な感じだったのだが、なんだかよく分からず。今日はあまり頭が働いていないのかもれしない。また水曜日に続きを聞こう……

夕方は意味談話解析勉強会。hirotsugu-e くんと自分の NL 研発表練習。松本先生が、聴衆から質問されたときは自分が全責任を負って答えなければいけないから、「こういうふうにしろと言われました」などという答えでは答えになっていない、とコメントされていて、それはそうだなぁと思ったり。自分も最近共著でやる仕事が増えているが、第一著者の人に対外発表で「こうしろと言われたからそうしました」「Xさんがこうするといいと言っていたのでそうしました」などと言わせてしまわないように、相当気を揉むのであるが……。「こうしろと言われたから」というのは「自分には理由が分かりません (あるいは納得していません)」ということの言い換えだが、そもそも公の場でそのように言わせてしまうのは、共著者の責任だと思う。(こんなことあれやこれや考えるのもなんだか嫌らしい感じではあるが)

ごまかさず質疑をするためには、どういう理由でいまなにをどうしているのか、ということがメンバー全員分かった状態で研究をしないといけないのであるが、これが難しい。言われているときは理由が分からなくても、自分の中で研究を続けて行って知らぬ間に理解が深まり、ああ、あのとき言われていたのはこういうことか、と気がつく、ということも往々にしてあるし (自分の場合だとほとんどがこのケースだし……)、100%理解するまで先に進まない、などと言っているといつまで経っても進まないので、動きながら理解して行くしかないのである。

木を見て森を見ないと全体像が分からないが、森だけ見て個々の木を見ないと全く先に進まないように、結局は両方大事なので、頭の中に研究の見取り図を作っていく感じで、いまやっていることの長所と短所両方理解した上で、ジグザグ進むように物事を明らかにしていく、ということかな。(研究には王道はなくて、でこぼこしてたり曲がりくねったりしているけものみちなので、最初は時間がかかることを厭わずに飛び込んで、その中でもがいているとそのうち道が拓けてくるのではないかな。)

その後自分も発表練習。本当に30分x4人も国際会議の参加報告をする必要があるのだろうか、といまさらながら思いつつ……。

夜、chitose-s さんのタグづけ環境の整備。インストールしたはずのソフトが起動しなくなっていたりとか、いろいろ想定外のことが起きていたが、復旧。やはりリモートで仕事をするというのは大変だなぁ……。近くにいれぱ30分で解決のことに1週間かかったりとか、うーん。仕事をするって難しい。