情報系の研究を始めるにはまず国際会議の論文をたくさん読むこと

毎週金曜日 NAIST は入試説明会というのをやっていて、オープンキャンパスでなくても説明会を受けられるのだが、その参加者が「松本研を見学したい」ということなので、1時間ほど応対。入試について説明してくれるこの説明会とは別にいつでも見学会という制度もあり、こちらで申請して行きたい研究室を直接見学する人もけっこう多い(ただし、入試についての情報はあまり得られない)。ちなみに、自分の大学での仕事(いわゆる雑用)の一つはこの「いつでも見学会」の申請者の集計なのだが、毎日のように見学会の申請者がいるので、なかなか大変である。もっとも、集計自体はメールが来たら記録するだけなので、1件数分の作業ではあるが。

見学に来てくれた人は自然言語処理の研究室の人だそうだが、松本先生があいにく出張中だった(残念)ので、自分が研究テーマの説明をしたりなんだり。偶然近くにいた katsuhiko-h くんに説明をお願いしたりする(ありがとうございます!)が、やはり相手がB4の人だと説明するときもかなり用語を選ばないといけないし、研究者相手に話すのとは勝手が違うので、専門知識がない人にも伝わるように話す技術も博士の学生のうちに身につけるべき能力だと思う。がんばりましょう :-) なんとなれば彼らが次の時代の自然言語処理を担ってくれる人たちになるわけですからー。

昼、yasuhiro-r くんに来週の勉強会で紹介予定の論文の相談を受ける。なかなか理解するのが大変だそうで。自分も最初の数本の論文紹介は準備に数十時間かかったし、時間がかかるのは普通なので、「英語だから読めば分かるだろう、8pだからかかっても3-4時間だろうし」と思うのは早計で、書いてある個々の単語が分かるということと、書いてある内容が分かるというのは別物である。

NAIST の M1 の人も6月3日までが1期(NAIST は 4期制なので2ヶ月で1学期)で、今日からが2期。そろそろ研究について考えるころだと思うので、どのように論文を読めばいいのかについて書いてみる。

日本語でも、たとえば医学書を突然読めと言われたときのことを考えてほしい。カタカナで書かれている単語は「これは薬品名だろうな」とか漢字で書かれている単語は偏や旁から「これは身体の部位の名前だろうな、これは病名だろうな」と推測はできるだろうが、だからといって他人に説明できるほど理解できるわけではない。それぞれかなり調べないと説明できないはずで、英語が読めるというのはその部分が日本語で書かれているというのと同じくらいの意味しかなく、書かれている内容は(自然言語処理の知識がない場合)ちゃんと調べて理解しなければ説明できないのである。

かといって悲観することはなく、1年半もこういう専門分野の英語論文を読んでいると、別に英語が得意とか苦手とかそういったのはどうでもよくて、論文で使われる表現は基本的にはそんな凝ったものではないし、個々の専門用語の意味は分かっているので、たとえばTOEICが500点くらいの人でも論文を読むのはそんなに苦ではなくなっている(それ以下の人は苦労するだろうが)。つまり、英語論文を読むのは最初は量が肝腎で、質より量、もっと言えば量こそ質、なのである。要は、ぐだぐた言わずに読め! というわけだ(笑)

情報系は他の分野と異なり少々特殊で、英語論文といっても国際会議に投稿された論文と、ジャーナルとか論文誌とかいう雑誌に投稿された論文とあり、基本的には後者のほうがランクのクオリティも高く、分量も多いのだが、国際会議の論文もジャーナルの論文と同じくらい重視される点が違う(ほとんどの分野では国際会議の論文は全く評価されない。逆に海外に遊びに行っていると思われてマイナス評価になることさえあるそうで)。かといって、じゃあジャーナルを読んだ方がいいのかというと、国際会議の論文のほうがページ数も決まっていて短いし、基本的なアイデアは国際会議の論文に書かれているので、自分は最初のうちは国際会議の論文を大量に次から次に読み、俯瞰的にテーマを見渡す力をつけたほうがいいんじゃないか、と思う。

一通り英語論文が読めるようになればそれから書くフェーズに入るわけだが、それはまた別の話。まずは数をこなして論文の構成や表現、ポイントを身につけないといけないし、質の低い論文をいくら読んでいてもいい論文が書けるようにはならないので、質の高い論文をたくさん読まなければならない。どういう論文がよい論文で、どういう論文が読まなくてもいい論文かは、いい論文も悪い論文もある程度の量読まないと分かってこないので、まずは自分でひたすら読むところから始めよう。