論文は削るほうが難しい

夕方に南大沢で委員会がある(と思った)ので車で出勤。後で確認したら、6月30日に延期していたらしく、無駄足に……。オーバーヘッドが大きいなぁ。

午前中の授業、資料を先週印刷してもらっていたので余裕かと思いきや、小テストを印刷していなくて授業直前に印刷。しかしなぜか印刷機が不調で1ページずつしか印刷できず、大幅な時間のロス。慌てて教室に行ったら Mac のバッテリーが切れていて立ち上がらず、電源アダプタは切れていて使えず、15分遅れで開催したが、ハードウェアトラブルにここまで苦しめられるとは。以前も小テストが人数分なかったことがあったが、3年目の授業で油断が出てきているのだろうか。気をつけないと……。

昼から読解支援勉強会に出る。B4 の人たちを中心に、論文を読んだりすでに実装したりしているようで、すごいペースで研究しているグループである。首都大は B4 の研究室配属直後に研究室で上からテーマを与え、すぐ実験に入って早ければもういまの時期に論文を書かせている研究室もあるようなので、必ずしも早くないのかもしれないが、それでも去年までと比べると早い(去年は機械翻訳のワークショップに出たのがあるが、B4 は全員途中で離脱した)。あっという間に研究室が組織化してきた。

自分は割と基礎勉強を重視しており、必ずしも早めに論文を書く必要はないと思っているのだが、一度は失敗することを織り込むと、早めにやるのもありかなとは思う。3月の言語処理学会年次大会で発表して、それが査読付き国際会議に出せれば相当なハイペースだし、査読付き国際会議に出せないようなネタにあまり時間を使っても、と思ったりするのである。もちろん、論文に馴染まないテーマはするべきではない、という意味ではなく、クオリティの低い研究に多くの時間を使うべきでははい、という意味であって、時間はかかってもコーパスや辞書のようなリソース作成の研究をしたり、デモやオープンソースのソフトウェアを作るのには大きな意義があるので、論文にならなくても何がしかプラスになる経験をしてくれればと思っている。

午後は進捗報告。修論関係の進捗報告がおもしろいのだが、やはり事例を見るとなんとも言えない(タグ付けが難しい)が、大変おもしろい。ここで何ヶ月も使うのはどう考えてももったいないのだが(数百文タグ付けするのに、ゴールデンウイークくらいからずっとかかっている)、なんとかならないものか……。ちゃんとデータを作らないと意味のある研究にならないので、しっかり時間を使ってもらいたいとも思うが、もっとタグ付け速度を上げないと修論が危険な気がする。どのようにすればデータ作成がボトルネックにならないようにできるのだろうか?

あと、論文を書く段階になると、いろいろあれやこれやと追加で実験をしたり数を調べたりする作業が待っているのだが、やってみて本文も書いてみると、理解が進んで「あ、この数字も必要」「こっちの表は不要だった」ということが分かったりするので、ここまでくるとあとは時間との勝負。「言われたからせっかく調べたのに使わないのか」と思うこともあるだろうが、研究は最後に出る論文が全てで、そこは一生残るものなので、時間がある限りベストなものを世に出したい。

やったことをなんでもかんでも入れるより、必要なものは全部盛り込んだ上で、不要な部分を削ったりまとめたり、ストーリーを分かりやすくするために並べ替えたり、削ることでクオリティを上げていくので、時間をかけて書いたものが消えることになっても、くさらず最後まで付き合ってもらえたらと思う(書いたものを消すたびに、論文のクオリティは上がっているのである)。