学内プロジェクトに自分がチューターになったプロジェクト(CICP)が採択された。最大100万円の研究費がしきゅうされ、1年間研究もしくは開発ができるという奈良先端大独自の制度である。彼女たちの提案はD2の2人だったので、修士の人たちの応募に比べると不利かなとは思ったが、しっかり研究計画を練ったのが評価されたのだと思う。今年は20件の応募に対し7件の採択で、例年より難関を勝ち抜いたみなさん、自信を持っていいだろう。失敗して学べることもあるし、失敗しても大問題になるわけではないので、意欲的に挑戦してもらえればなと思う。
今年も未踏および未踏ユースの公募が出ているのだが、CICPに落ちた人もそうでない人も、こういう外部のものに積極的に挑戦してほしい。特に自分がお勧めするのは未踏ユースのほう。年齢が25歳未満でなければならないという制限はあるが、逆に若くてすごい人に出会える機会でもある(よく合宿や成果報告会があり、同年代の無茶苦茶プログラミングできる人に会えたりする)し、PM の方々がすばらしい。個人的には未踏より未踏ユースのほうが(本来の目的からしても)よいと思うのだが……
未踏ユースがどういうものか簡単に知りたい人は、こちらの漫画で読む未踏ユースを参照されるとよいかと(笑) 「未踏は出会い系」というのはよく分かる (笑) 9月30日が〆切なので、夏休み暖めたアイデアを投稿してみるといいと思う。
そういえば情報科学若手の会にも参加申し込みしてみた。もはや若手ではなくなりつつあるのだが、若い人と交流するのは大事だと思うのだ。自分は Twitter でフォローしてくれた人が学生・女性・海外在住の人だったらフォローし返すことにしている(100件くらいつぶやきを見て「うきょうきょ」とかそういう書き込みばかりだったりする場合を除く)。自分と違う環境であればあるほど自分が普段生活していては知り得ないようなことをつぶやいてくれるので、ときどき眺めるのはおもしろい。
勉強会では habib-a さんが Urdu Word Segmentation の紹介。ウルドゥー語というのはパキスタンやインドで話されている言語で、なんと1億人の話者がいる言語なのであるが、まだアラビア文字をローマ字で表記する正書法が定まっていないというので彼ががんばっているところ。そもそも、単語分割からしてこれまでは研究がなかったのか、と思ったりする。こういうのこそ、教師なし単語分割すればいいんじゃないかなぁ。
「数千文タグづけすればいいから教師なし単語分割や教師なし形態素解析は実用上意味ないのでは」という意見もあるのだが(自分もかつてはそうだった)、教師なし形態素解析こそ実用上相当有用な研究だと最近は思うのである。あらゆる言語に対してそういうタグつきデータを用意するのは応用的には不可能だし、タグなしデータならある程度企業なり大学なりで集めることができるので、そこからなにがしかの処理をしてくれるツールが作れるというのはかなり重要である。
教師あり単語分割に関しても最近は @tkng さんが書いた Micter やその高速化もあるが、個人的には The Latent Words Language Model や Online EM による HMM 学習 のような話(単語分割とは違うが)ももっと盛んになるといいのではなかろうか、とも思うのである。(これらも教師なしにクラスを学習できるので)
午後は夏学期最後の研究会。今週で全ての勉強会も最終なので、本格的に夏のプロジェクトに取りかからないとね。