広島でお好み焼きを食べる1日

ひかりレールスターにて新大阪から広島へ。今日は情報処理学会第199回自然言語処理研究会なのである。

ひかりレールスターは指定席が普通のグリーン車用の席と同じなので、腰には楽かと思ったのだが、人が多くて疲れる。新大阪から広島は1時間半だったのが救い。来週月曜日を休みにすると連休になるので人が多いのだろうか?

広島バスセンターでバスを待っている間にお好み焼きを食べてみる。五エ門 広島バスセンター・アクア店というところ。確かにこれはおいしいかも〜

広島市立大に来たのは初めてだが、キャンパスはきれいだし、山の中腹で風光明媚だし、これはいいところだなぁ。市内にもバスで15分というロケーションもよい。高校生のとき東広島(新幹線で1駅離れている)にある広島大学を受験しに来たが、あそこは NAIST よりも辺鄙な気がする。大学院ならともかく、学部生があの環境に閉じ込められるのはちょっと気の毒かも。

研究会は @uchumik さんの発表が終わってほっと一息。ちょっと「注文の多い共著者」をやってしまったかと思ってドキドキしていたのだが、華麗に発表してくださってよかった。相澤先生の「情報検索における圧縮距離の適用に関する考察」がおもしろかった。

考え方としては、2つの文書間の類似度を測るとき、2文書をそのままつなげて圧縮したとき、より圧縮率が高い=類似度が高い(∵同じ単語が出てくると圧縮される)という手法で、この考え方自体は [Bennet 1998] で示されていたもので新しいものではなく、2009年5月号の人工知能学会誌(24巻3号)でも相澤先生が

  • Helmer, S: Measuring the structural similarity of semistructured documents using entropy, Proc 33rd International Conference on Very Large Data Bases (VLDB), pp.1022-1032 (2007)

の紹介を書かれていて、初めて読んだときは「おもしろいこと考える人もいるものだなぁ」と感じたものであるが、@hillbig くんの

  • Daisuke Okanohara, Jun'ichi Tsujii, Text Categorization with All Substring Features. SDM-2009.

とこの話がつながっている、と聞いて視界が開けた気がする。文字列だけを素性に使ったタスクというのは自然言語処理ではあまりないと思うのだが、確かに著者推定とかテキスト分類のようなタスクでは文字列だけを使ってもそんなに不思議ではないし、文字列だけを素性に使うような場合の話として聞くと、圧縮アルゴリズムを使って情報理論的な基礎付けを行なっていることに相当していて、おもしろい話である。

夜は15人くらいで @presriさんにくっついていって広島の居酒屋とお好み焼き(お好み焼き御三家というのがあるらしいのだが、そのうちのひとつ)を制覇。今年は夏が暑かったせいで牡蠣が不作らしく、品切れだったのが残念無念であったが、まぁまたの機会に来るとしよう。

帰りがけ、平和記念公園沿いを歩いたのだが、イルミネーションが煌煌と輝いていた。人いなかったけど……。なんだか受験生時代を思い出した。SMAPの「セロリ」がウェンディーズでかかっていて、よく勉強して、冬の夜の寒くて暗い道を歩いたな。なんだか、どれくらい前のことかも分からないが、寒いとさみしくなるのかもしれない。