自然言語の語彙の大きさを推定する

Microsoft Research 時代の同期の Suma を迎えに奈良へ。毎回ゲストを海外から呼んで奈良のホテルに泊まってもらうと、NAIST と奈良との間は(公共交通機関がいまいちなので)車で迎えに行くのだが、1日2時間以上運転することになるので、行く前と全部終わったあとは相当疲労する。

さて、今日は京大から @neubig さんも来てくれたので(@syou6162さんと @tomo_wb くんが研究室内の案内をしてくれたらしい)、松本研の人たちと合わせて10人以上参加してくれて、ほっと一息。質疑応答も活発でよかった。

内容としては、ある言語のコーパスを与えられたとき、この言語における総語彙数は(未知語も含めて)いくらだろうか、という問題に、理論的な背景があり、かつ実用上も Good-Turing 法などのヒューリスティックな主要より優れた手法を提案した、という話。情報検索やデータベースでクエリに対してインデックスを張るときに、どれくらいの頻度の単語がどれだけ存在するか、というのは重要な問題でもあるらしい。タイポ(打ち間違い)の分析なんかにこういうのが使えたらいいんじゃないかと思うのだが、どうだろう。

でもこういう「言語の本質に迫る」という話は聞いていておもしろい。@hjtakamura さんのNLP 若手の会の話も興味深かったが、

興味深いのは、「これ、何の役に立つの?」という質問が無かったこと。
もちろん、その質問が悪いわけじゃないけど、
内容的にはまったく役に立ちそうにないにも関わらず、
一時間いろんな方々と話してそれが出なかったってのは、ある意味、画期的です。

というのはもっと強調してもよいだろう。ACL は (EMNLP なんかと違って)こういう研究をもっと評価していくとよいと思うのだけどな〜

ランチは近場に行きたかったのでべに江 真弓店へ。予約できなかったので心配したが、少し待っただけで入れた。Suma はベジタリアンだったので、天ぷらは全部野菜にしてもらった。ちょっと気がつかなかったが、お味噌汁も鰹だしだと飲めない人いるのか (和食なら肉使わないメニューだと思ったが……)。あと、最初からスプールとフォークをデフォルトで用意してもらえばよかった。うーん、これまで2回 NAIST に呼んだ Pantel さんは普通にはしを使っていたので気がつかなかった (汗)

彼女自身は今年イリノイ大学で博士号を取得してポスドク研究員をしているのだが、旦那さんはイリノイ大学で准教授をしているそうで、運良く2人とも同じ大学で研究職が見つかったらしい。ただ、子どもが2人いる、ということで「もし他の大学でいいポストのオファーがあったら別居することになっても行く?」と聞いたら「絶対行かない!家族が一緒に暮らせることのほうが大学のポストよりはるかに大事だもの」と即座に返す。やっぱりそうか〜。今でこそうちもまだ子どもがいないので別居生活をしているが、子どもができたらたぶん同じだと思う……。(夫婦のどちらかの仕事が優先されるのは仕方ない。我が家だと、妻の仕事が確保されるのが第一で、次に自分の仕事の安定かな。) 

こういうのは two body problem と呼ばれるそうなのだが、夫婦ともに研究職だといろいろと悩ましい(ちなみに two body problem というのは物理では2つの物体の運動を記述する問題のこと)。「仕事で人生を選んではダメ。人で選びなさい。人との関係は一生続くものだし、仕事は人がつながっていればいつだってやってくるものだから」と言われて思わず「それはいい言葉だね」と納得。いま自分はしばらく動けない(チャンスをいくらか逃している)と思っていたが、根本的には松本先生の研究室にもうしばらくいたい、というのがいちばんの理由であって、やっぱり「自分のやりたいこと」で仕事を選ぶより、人とのつきあいの中でなんとなく拾ってもらえるほうが自分の生き方に合っているような気がする。

帰ってきてから M2/D2 の人の修士・博士論文中間発表練習/進捗報告。例年 M2/D2 の学生は9月末に集中的に中間発表をするのだが、なぜか今年は11月くらいまで中間発表が当たっていない人もいて、1ヶ月以上開いていたら発表練習もなんなので、というわけで進捗報告になっているのである。

議論がいろいろあるのはよいが、4人でたっぷり3時間以上、なかなかヘビーな練習であった (自分の練習のときだけ来る学生が例年いるのだが、他の人の発表もちゃんと聞いてどんなコメントもらっているか聞くのも勉強なのだけど……)。明日もまだ練習あるので体力回復しないと。