内省が利かないのもまたおもしろい

午前中、松本研の社会人博士課程の学生でもある [twitter:@togiso] さんと京都駅近辺にて打ち合わせ。自分が京都市に引っ越したこともあり、ちょっとした打ち合わせはNAISTに来ていただくより京都でやったほうが遥かに楽である。

お昼は駅前の新阪急ホテル地下1階のバーREEDでカレー。@togiso さん曰く、京都駅付近はカレー不毛地帯だそうで、探してようやく見つけた数少ないカレーを出してくれるお店だそうだ。夜はバーで、昼間だけカレー専門店になるそうで。

伏見や桃山のあたりはそれほどでもないが、京都駅は湿度が高く、息苦しい感じ……。6月中旬でこれだと、8月はどうなっているのだろうか。

午後は京都リサーチパークで統計的日本語史プロジェクトの研究会。京都駅からJR嵯峨野線の各停で1駅。本当は京都駅前のキャンパスプラザ京都にしたかったそうだが、月曜日が定休日で予約できなかったそうである。キャンパスプラザ京都は便利な場所にあるので、自分も少人数のミーティングを京都で開催することがあったら使ってみたい。京都の大学の人でないと学割がないようだが、一般料金でもそんなに高くないし……。

長単位解析ツール Comainu のことを少し教えていただく。「こまいぬ」というのは自分的にちょっと親近感がある。←「小町犬」のことを略して「こまいぬ」と呼ばれていたことがあるのだ。長単位と短単位の歴史的経緯についてお聞きしたり。そういえば、自分もかれこれ10年近く前、日本語話し言葉コーパスの作成のアルバイトで自然言語処理の世界に足を踏み入れたのだが、「単語」と言ってもいろいろな単位が考えられるものだとびっくりしたことを思い出した。

夕方、8人でタクシーに分乗して京都駅まで戻り、飲み会。卒論でやった研究 (台湾植民地時代の言語政策) についてお話ししたり、適性のあるアノテーター (タグ付けをしてくれる作業者) はいかに貴重かという話で盛り上がったり。古文は特に内省 (自分で考えてこの表現が言えるかどうか判断したり) が不可能なので、文脈がないとアノテーションにものすごく時間がかかるとか、なるほどなぁと思ったり。そういう意味では源氏物語枕草子だと、後者のほうが調べながらやらないといけないので難しいのこと。

内省が利かないところで研究するというのは難しいな、と一瞬思ったが、よくよく考えてみると、ウェブデータは内省が利かないようなテキストもたくさんあり (こんな表現自分では使わない、というくらいならまだましで、見ても意味が分からないような文字列もたくさんある。ウェブ検索してようやく意味が推測できたりすることも多々)、あまり変わらないかも、と思ったり……。

夜、帰宅してからビール4杯しか飲んでいないのに酔った感じ。二十歳のころは全然なんともなかった記憶があるのだが、日本酒だと1合、ビールだと生中2杯くらいまでが (確実に気持ち悪くならないという意味で) 限界だな〜。