連休中の奈良・京都のホテルを取るのは一苦労

1週間全部奈良にいないとあらゆる仕事がストップするので、ほうほうの体で奈良に帰ってきて研究室へ。9月21日11:00-12:00まで松本研で開催するけいはんな自然言語研究会で、Microsoft Research 時代の同期(自分は自然言語処理グループでインターンを、彼女はテキストマイニンググループでインターンをしていた)の人が日本に来るというので

時間
9月21日11:00-12:00
場所
奈良先端大 松本研究室 (情報科学研究科 A707)
講演タイトル
Knowing the Unseen: Estimating Vocabulary Size over Unseen Samples
講演者
Suma Bhat (Beckman Institute, University of Illinois, Urbana-Champaign, USA)
概要
Empirical studies on corpora involve making measurements of several quantities for the purpose of comparing corpora, creating language models or to make generalizations about specific linguistic phenomena in a language. Quantities such as average word length are stable across sample sizes and hence can be reliably estimated from large enough samples. However, quantities such as vocabulary size change with sample size. Thus measurements based on a given sample will need to be extrapolated to obtain their estimates over larger unseen samples. In this work, we propose a novel nonparametric estimator of vocabulary size. Our main result is to show the statistical consistency of the estimator -- the first of its kind in the literature. Finally, we compare our proposed estimator with the state of the art estimators (both parametric and nonparametric) on large standard corpora; apart from showing the favorable performance of our estimator, we also see that the classical Good-Turing estimator consistently underestimates the vocabulary size.
講演者紹介
Suma Bhat received the Ph.D. degree in ECE from the University of Illinois at Urbana-Champaign in May 2010. Since then she has been a post-doctoral researcher in the Beckman Institute at the University of Illinois, Urbana-Champaign. Her research interests lie in the area of speech and natural language processing. Her doctoral research work covered techniques of automatic language assessment and theoretical analysis of natural language corpora. She also serves as a consultant with the Educational Testing Services, Princeton, USA and the Central Institute of Indian Languages, Mysore, India.

という内容でトークをお願いしているのだが、彼女の滞在するホテルを予約したり、講演料の手続きを進めてもらったり。けっこういろいろと手続きがあるのだ。観光がしたいからとゲストハウスではなく奈良市内のホテルの手配を頼まれたのだが、ちょうど連休中の滞在になってしまうので見つからず四苦八苦。連休中の京都・奈良は危険だということがよく分かる……

ちなみに上記の講演は誰でも参加可能、事前登録も不要なので、興味のある方はご参集されたく。内容的には ACL-IJCNLP 2009 で話したトークの内容と同じ(少し長いバージョン)ようだが、ディスカッションの時間も取れると思うので……