1月19日にYahoo! Labs の Patrick Pantel さんのトーク

Yahoo! Labs の Patrick Pantel さんのトークの詳細が決まった。リンク先にもあるが、こちらにもコピペしておく。
日時は1月19日(火)15:10-16:40で、場所は NAIST 情報科学研究科 L2 講義室である。一昨年来てもらったときと違い、今年は授業の一環としてやることにしたので、自然言語処理系の人対象ではなく、もっと一般的な聴衆(M1の学生)を対象にしてもらうようお願いしたので、自然言語処理専門でない人もどうぞ。(自然言語処理専門の人も楽しめるはず) あと、学外から聴きに来る人は、トークが終わったあと18時くらいから Pantel さんを囲んだディナーをする予定なので、mamoru-k あっと is.naist.jp までメールもらえると、人数カウントしてお店予約しておきますので、どうぞよろしく(学内の人でも歓迎です!)。

講演者: Patrick Pantel (Information Sciences Institute, University of Southern California/Yahoo! Labs)
題目: Industrial Semantics
概要: Kon ya no shiro bakama, a famous Japanese proverb, commonly translates in English as "The shoemaker's children go barefoot." Companies such as Yahoo and Google strive to understand user information requests, yet mostly they still walk barefoot. In this talk, I will discuss challenges we face in industry for transferring the semantics technology being developed in the NLP community, specifically focusing on harvesting entities from the Web. We present Ensemble Semantics (ES), a general framework for modeling information extraction algorithms that combine multiple sources of information and extractors. We show large gains in entity extraction by combining state-of-the-art distributional and pattern-based extractors with a large set of features from a 600 million document webcrawl, one year of query logs, and a snapshot of Wikipedia. We explore the hypothesis that although distributional and pattern-based algorithms are complementary, they do not exhaust the semantic space; other sources of evidence can be leveraged to better combine them. A detailed analysis of feature correlations and interactions shows that query log and webcrawl features yield the highest gains, but easily accessible Wikipedia features also improve over current state-of-the-art systems. We further deep dive on Yahoo!’s distributional set expansion extractor and study the impact of editor-chosen seeds on extraction performance. We show that in general few seeds are needed to saturate a distributional model and that seed compositionality is very sensitive resulting in tremendous variance on expansion performance. We further study the latter and show that untrained editors are terrible at choosing the right seeds and we propose algorithms for helping editors choose better seeds.
講演者紹介: Patrick Pantel is a Senior Scientist at Yahoo! Labs and a Research Assistant Professor in the Natural Language Group at the USC Information Sciences Institute, where he conducts research in large-scale natural language processing, text mining, and knowledge acquisition. In 2003, he received a Ph.D. in Computing Science from the University of Alberta in Edmonton, Canada.

M1 の人から質問があったので補足しておくと、今回 Pantel さんは自分(小町)の公聴会の学位審査委員になってもらっているので、前日18日の公聴会に出席するために来日してもらうことになったのである。それで、公聴会のためだけに来てもらうのもなんなので、1つくらい講演をしてもらいましょう、ということで、Yahoo! Labs で行われている研究・開発についての講演(修士の学生向け)を用意してもらった、というわけ。自然言語処理分野以外の人のために補足しておくと、上記のトークは The 2009 Conference on Empirical Methods on Natural Language Processing (EMNLP 2009) という機械学習や統計的手法を用いた自然言語処理のトップ会議の発表内容と、The 18th ACM Conference on Information and Knowledge Management (CIKM 2009) というデータベースやデータマイニング系のトップ会議の発表内容を噛み砕いたものである。あと、Yahoo! Labs に来ませんかという宣伝があると思うので、シリコンバレーに就職(インターンシップ)希望の人もどうぞ(笑)

この外部の教員を招聘できる制度は自分が D2 のときに始まった制度なのだが、ちらほら利用者がいるらしい。自分の経緯では、D1 の7月ごろに書いていた論文で、Pantel さんの論文を参照していて、彼の論文で分からないことがあったので、直接メールを送ったのが最初のコンタクト。結局そのとき返事はなかったのだが、D1 の10月に別件でトークをするため東京に来ていた Pantel さんに会いに行き(というか会うために研究会で発表もして)、そこで少し研究を見てもらった。そこに、偶然外部の教員を博士論文の審査委員に入れることができる、という話が来たので、「1年前に日本で研究の相談をしたのだけど、覚えていますか」というメールを出して、審査委員になってもらって D2 の10月くらいに一度奈良に来てもらったのである。その後、国際会議に行く度に近況報告したり、海外の他の研究者を紹介してくれたり、今年シリコンバレーにいたときは Yahoo! Labs のオフィスを案内してくれるなど、公私にわたっていろいろと面倒を見てくれているので、ありがたい。

ポイントは、インターンシップにせよ海外の人へのメールにせよ、一度断られたくらいで諦めてはいけない、ということ。1回返事がないくらいで「自分は相手にされていない」と諦める人が多いが、忙しい人は知らない人からのメールには返事出さないことも多いので、諦めないことが大事。自分の場合は、博士論文のきっかけになった論文を書いた人が直々に審査委員に入ってくれて、とても幸せなことだと思う。ぜひ NAIST の他のみなさんにもこの制度を利用してもらいたいものだと思う(チケットを手配して奈良に来てもらって、泊まる場所や送り迎え、トークやディナーの調整などやることはたくさんあるのだが、それを考慮に入れても入ってもらう価値はあると思う)。