世界各地で盛んな自然言語処理のインターンシップ

午前中、yoshitaka-y くんが金曜に発表するスライドチェック (1時間では終わらなかったので、昼休みもやったが)。一応パネル討論には間に合うように行くつもりだが、雪が降る可能性があるので、もしかすると足止めくらうかも?

11時から言語教育勉強会。未踏ユースに採択されたという報告。日本語学習者の書く作文はひらがなが多いがどうすれば、という話で、Mozc を使ったらいいんじゃないか、と言ったりなど。このあたりはそれぞれ似た技術だな〜

ちなみに未踏本体の採択結果、松本研 OB の kou-k さんの名前が見える。真偽のほどは不明だが辻井研も大変らしい。

郵便局に行って言語処理学会年次大会のお金を振り込む。ゆうちょがあったのでついでに新札に両替してもらおうと思ったら、どうやらゆうちょでは両替をやっていないらしい。調べてみると、昔は両替を業として行なう場合は大蔵省による認可が必要で、1998年に法律が改正されて認可がなくてもできるようになったが、ゆうちょはサービスとしてやってない、という状況のようだ。

@nagai_yさん曰く、

現在Googleでは、米国本社でのサマーインターンに参加できる院生も募集中です。主に自然言語処理分野での研究をしているmaster/doctor (PDは不可)の生徒さんが対象です。コードが書けるのはもちろんのこと、かつなんとか英語で話せるという条件付きではありますが。

とのこと。自然言語処理インターンシップの機会があって嬉しいものである。自然言語処理人気がいつまで続くか分からないけど……。

自然言語処理におけるインターンシップというと今年3月11日の言語処理学会年次大会の「自然言語処理における企業と大学と学生の関係」の予稿集がおもしろい。いま研究されている方々が、必ずしも昔から自然言語処理の仕事をされていたのではないことが分かる。

自分的ベストペーパーは鈴木久美さんの「マイクロソフト・リサーチで言語処理・言語研究に携わって」。たった2pだが、マイクロソフト・リサーチ(MSR)での研究(日米比較)と、Hisami さんがどのように言語処理に関わるようになったか、シアトルでの生活、そしてインターンシップについて、てんこもり。文章も名文である。(自分も登場させてもらっているが、自分が登場しているから高く評価するわけではない、たぶん(笑))

自分が好きなのは次のくだり。ちょっと長いが引用する。

MSRでの研究のもうひとつの醍醐味は、プロダクトチ ームからの生のデータに基づいて研究ができることであ る。生きた生のデータを言語処理の対象にするとき、現 実のユーザーの役に立つものにつながっている、という 実感がある。これはもしかしたら、私のバックグラウンドと も関係あるのかもしれない。脱線するが、私が入社したの はシカゴ大学言語学部博士課程に在学中のことであ った。もともと言語学が専門であり、言語処理は入社後に 始めたのだが、言語学という理論的な研究から、実際の データを扱う言語処理に接したときの驚きと感動は忘れ られない。当時の言語学にはまだ「コーパス言語学」とい うようなものはなく、研究者の直観で文法的な文と非文法 的な文を判断し、それらを区別することによって文法とは なにかを説明する理論を求めていたのだが、言語処理 ではあるのはデータのみ、コーパスに存在する文は文法 的であろうとなかろうと、えり好みなしに処理されなくては ならないのである。私の最初の数年の仕事は、できるたけ多くの日本語の文を解析できる構文解析器の構築で あり、具体的には汎用(多言語用)の構文解析エンジン 用に構文ルールを書くことであった。これはとりもなおさ ず、解析用日本語文法の仕様書を書くことであり、大学 院で言語学を専攻中に研究の対象にされているのをみ たことがないような構文と大量に向き合うことであった。こ のような経験を通して実感したのは、日本語文法の仕様 書にたぶん正解はなく、全体の整合性が大事だというこ と、ただし、より「正解」に近い仕様というものはあり、それ は構文解析の結果をどう使うのか、という使用目的つまり アプリケーション次第である、ということである。

自分が自然言語処理を研究分野に選んだのも、学部で哲学や言語学の授業を受けていても「結局頭の中で考えたことだけで議論していて、反証可能性もあやしいし、アームチェア文化人類学者(本だけで現地に足を運ぶこともなしにある文化について語る)のようなことはしたくない」と感じ、フィールドワークをする言語学か、実際のデータを使う言語処理かにしよう、と思ったからであるが、Hisami さんももともと言語学のバックグラウンドがあり、データと格闘することで言語の実際の姿と向き合ってこられたのだと思う。(自分も MSR でインターンすることで、博士の間の研究生活の方向性が決まった)

ちなみに自分の原稿は「若き大学院生の悩み」である。自分ひとりだけネタに走っているのかと思ったら他の人もたくさんネタがあっておもしろく、結局みなさんの分全部読んでしまった (笑)

コーパス言語学といえば今年のNAISTのスプリングセミナーでは masayu-a さんが

  • テーマ: コーパス言語学入門
  • 概要: 計算機を利用して言語データを分析する研究手法を体験してみましょう.
  • 参加条件: 人文系学部において言語学国語学・英語学ほか言語は問わない)を学ぶ学部3年 or 修士1年
    • 複数の方からお問い合わせいただきましたが、今回は人文系学部の方を優先させていただいております。理工系の方の応募はご遠慮願います。
  • 定員: 2 (要事前登録)(定員に達したようです 2011-02-02)

というテーマで実習生を募集されている。今回のスプリングセミナー、残念ながら期間は3月10-11日で、ワークショップと期間が被っていたので自分は募集をかけなかったが、夏には去年と同じく「統計的機械翻訳入門」か「自作 IME をつくろう!統計的かな漢字変換入門」のいずれかを開催する予定なので、言語処理系の実習を希望される方は(第1回入試は終わってしまっているが)そちらに参加されたし。