SIGNL 215: センター試験の自動解答の難しさ

午前中からNL研（情報処理学会自然言語処理研究会）に参加しようと思っていたが、事務書類の提出および卒研の予稿の〆切前日でみんな最後の追い込みをしているので、大学に出勤。座長を引き受けたので午後は行かないといけないが、なんで引き受けてしまったのか……。来年度は幹事なので毎回参加になるのだが、ちゃんとスケジューリングしないと危険かもしれない。

大学では卒研の予稿に赤を入れたり、卒研の実験の進捗を聞いたり。これだけ実験結果が出て予稿が書けるなら、言語処理学会の年次大会で発表してもよかったような？まあ、1月24日の段階ではこんな結果もなかったし、文章も書けていなかったので、仕方ないが……。今年は若手の会での発表と、なんらかの研究会・全国大会で発表することが目標である。

午後からは竹橋（神保町）の国立情報学研究所（NII）にて第215回NL研。といっても、豊田からだと中央特快で御茶ノ水まで行くのが速いので、御茶ノ水駅から歩いて向かったのであるが。

座長を務めたのは「自動問題回答」のセッションで、いわゆる東ロボプロジェクト（人工知能で東大入試を突破する）のサブタスクである、センター試験世界史・日本史とセンター試験現代文評論・小説（およびそれらに対応する代ゼミの模試）について。自分自身代ゼミ生だったし、豪徳寺にあった代ゼミの寮で住み込みチューターを1年ちょっとしていたので、代ゼミの名前を聞くのは感慨深いものがある。センターと比べると少し問題の傾向が違うような気がするが、形式は同じなので「代ゼミチャレンジ」と呼んで挑戦したそうである。

歴史の問題は質問応答システムを使って回答するという方針で、センター試験の形式の問題文を、既存の質問応答システムが受け付ける形式に変換する、というのが主なタスク。質問応答システムのエラーが原因で解けないのか、あるいは入力を変換するところが原因で解けないのかいまいちはっきりしない。前者にしても、候補には入っているのに選択できていないのか（いわゆるサーチエラー）、そもそも候補に入っていないのか（いわゆるモデルエラー）、という2つがあるし、大がかりなシステムになるとデバッグ（を性能向上に結びつけるの）が大変そうだという印象。

現代文の問題は、漢字・語彙問題、評論、小説という3つの部分に分けて独立に解いているようだが、基本的には表層の手がかりだけを使い、文脈はできるだけ見ないでどれだけ解けるか、という予備的な実験結果の報告である。大部分の問題は（こういうタスクでありがちだが）表層な手がかりだけで解けるし、文脈を見なくても正解にたどり着けるわけだが、ここから正答率を上げようとするとどうしても意味的・談話的な情報を用いざるを得ず、かつ本当に入れて正答率が上がるのか分からない（人手で意味や文脈の正解を与えれば正答率が上がる可能性が高いが、データスパースネスの問題もあるし、そもそも本番では自動推定した意味や文脈を使わないといけないので、ノイズになる可能性の方が高い）、という難問にぶち当たりそう。

機械学習を使うことができない、という理由を何度か説明いただいたのだが、データの量が少ないのはともかく、同じ文章が出てくることがありえないから、というのはあまり納得のいく回答ではなかった。表層の手がかりだけを用い、表層そのものが素性になっているのであればそうだと思うが、（非）類似度のような形で用いたり、表層だけでやる必然性は今のところないので……。（逆に言うと、こここそが東ロボプロジェクトで本当に解決しないといけない問題の一つではなかろうか？）

帰宅してから卒論（卒研の発表会の予稿）のチェックx2。家には仕事を持ち帰らないことにしているのだが、明日が〆切なので背に腹は代えられない。修士論文のチェックx2もする。国内の研究に関しては、かなりカバーしていて、しっかり調べているなという印象であるのだが……。