論文の専門用語を洗い出す

朝起きると八王子が既に雪らしく、家のあたりも降り出していて、保育園まで久しぶりに車で行く。年度始めで新しい子や新しい保育者さんが増えて、せっかく覚え始めてきたのに、また誰が誰だか分からない……。

誕生日に「おめでとう」メッセージへの返事をするとエンドレスになるので1日待っていたが、返事を始めるとどう考えても1日で返事し切れない数あるので、少しずつお返しをすることにした。

以前は Mixi とか GREE、そしてこの日記のコメント欄でお誕生日おめでとう的な何かがあった気がするのだが、最近はほぼ Facebook である。しかし Facebook 登場以前はこんなにメッセージをいただかなかった気がするのだが、そんなにみんな突然誕生日を祝いたくなるわけがないので、メッセージの入力を促すインタフェースというのは重要だなと思う。(もしかするとこれまでつながっていた友人たちと、最近はつながっている友人たちの性質が違い、最近知り合いになった友人たちは誕生日を祝ったりする習慣のある人たちである、という可能性は否定できないが。)

午前中は論文紹介。
Barnes et al., Correcting Keyboard Layout Errors and Homoglyphs in Queries, EMNLP 2014.
を紹介する。eBay の人たちの研究なのだが、言語をまたいだ商品検索をするとき、検索のヒット数が0件になるものがあるのだが、そのうち言語の入力モードを誤って入力してしまうキーボードのレイアウトのエラー(「NTT」と打とうとして「みかか」と入れてしまうようなエラー)と、形が似ている文字を入れてしまう(「あやしい」と入れるべきところに「ぁゃιぃ」と入れるようなエラー)に対処した、というお話。

ロシア語ユーザに英語で説明文が書かれたページを検索させる、という設定だが、上記2種類の誤りは0ヒットクエリの7.8%あるらしい。割合は少ないように見えるが、現状ヒット数が0件の場合、何かページを返せるだけで(それが検索クエリに完璧に合致するものでなくても)ユーザはサイトに留まってくれたりするので、こういうエラーへの対処は副作用が少なく、実用的には重要である(理解も得られやすい)。

初回の論文紹介なので専門用語に一つ一つ注釈を入れて紹介していたところ、2-3行に1つは専門用語があり、けっこう大変。自然言語処理の専門用語、言語学の専門用語、機械学習の専門用語、人工知能の専門用語、情報科学の専門用語、などなど……。英語の論文を読むとはいえ、専門用語さえ押さえれば英語で分からないということはあまりないのだが、逆に言うと最初は何を調べても専門用語なのであった。まあ、1本読むごとに指数関数的に読むのにかかる労力は減るので、数をこなしてもらえれば、と思う。

お昼休みに研究(修士論文)に関する打ち合わせをするが、うちの大学院が出している学位は修士(工学)なので、(いますぐでなくていいので)なんらかの形で役に立つ研究をしてほしい、という話をする。同じシステムデザイン研究科でもお隣のインダストリアルアートは修士(学術)もあるようなので、事情は違うだろうが……。(あと、NAIST情報科学研究科は修士(工学)と修士(理学)が選択できて、9:1くらいで工学の方が多かったが、理学を選ぶ人もいた)