Google Tech Talk in Osaka に出るために梅田まで

以前書いたように Google Tech Talk in Osaka で @taku910 さんが Google 日本語入力の話をしてくれるというので、@shirayu くんの車に @smly くんと乗せてもらって行ってくる。昼はすし政 中店というところだったらしい。確かに安い。カウンターに座るタイプの寿司を食べたのは(アメリカで食べたのを除いて)久しぶりなのだが、こういうのもいいなと思った。たぶん最後に回らないお寿司屋さんに行ったのは5年前だと思う……。

講演自体についてはこちらにものすごく詳細にまとまっているので、参照されたし。(40分書いた記事があったのだが、はてなの不具合で全部消えてしまったので、リカバーする気にならない……。管理モードで書いているときはバックアップされるのでいいのだが、インライン編集モードで書いていると、投稿時に接続に問題があったとき全部消えるのは、なんとかしてほしい。)

聞き逃してしまったけどもう一度リアルで聞きたい人は

で同じ話をしてくれるそうなので、そちらをどうぞ。

新卒の学生向けのイベントということだったが、「実は私昔仕事で IME 作っていまして」という人も質問していたり、200人くらい入れるセミナールームは満席、合計延べ30-40人くらいの人が質問して、ものすごく活気のあるセッションだった。これは行かなかった人損でしたね! (笑) 隣に坐っていた人も、聞いてみたら学生ではないようで、「関西でこういう集まりって東京ほどないですよね〜」と話したりしていた。(ちなみに、割と自分はこういう場所で隣にたまたま坐った人に話しかける。そうするため、わざわざ知り合いの隣に坐らないこともある。せっかく外部の人と話せるのに、いつも会う人とばかり喋っても時間もったいないし。)

LOUDS を使って辞書が70MB、さらにハフマン符号化で35MBに圧縮するとなると、ほとんど情報量限界ではなかろうか? ここからさきは Bloom(ier) Filter とか使って誤りを許したりしないと小さくならないのかも。@yt76 さんさすが!

技術的な話は上記の2回でも繰り返されるだろうから、今回にしかなかったであろうことを書くと、新卒向けのイベントだったので、プロジェクトマネージャの人も来ていて、どういう仕事か、どういう採用面接か、なんてことを話してくれたのがおもしろかった。なんか話し方が hideto-k さんと被るのだが(笑) 「ヤバいときにヤバいと言える環境を作る、ヤバくなったらエンジニアを責めるのではなく、これはヤバいね、じゃあどうしようか、と一緒に解決策を考えられることが大事」という話とか、なるほど、と思う。頭の回転も速いのだろうけど、やはり(前職がなにか分からないが)経験に裏打ちされた直観だったりいろんな落とし穴を知っていたりだとか、そういうのがあるのだろうなと思った。自分はそこまでスマートではないので、ひとまず目の前のことを一つ一つクリアしていって、経験値を積んでいくところかなぁー

講演が終わった後、京大の人たちと久しぶりに会ったので(@zelchmixijp さんはいらしていなかったが……残念! ;-D)話していると、@neubig さんに初めてお会いする。彼はいま京大の河原・森研究室の M2 の人で、分かち書きするための京都テキスト解析ツールキット kytea を作っている人である。言語モデルとか読み推定とかいろいろやっているので、すばらしい(笑)

そういえばついでに紹介を忘れていたので紹介すると、日本語の係り受けツールとして有名なKNP にバージョン3.1が出ている(もう一つ有名なのはこれまた @taku910 さんによる cabochaである)。

新バージョン3.0では,Webから自動構築した大規模格フレームを利用するようになりました.この格フレームに基づく確率的構文・格解析により係り受け関係と格関係を決定します.

というわけで、ウェブから自動構築したデータ(から作成したモデル)がとうとう普通のツールに入っていく世の中になったのだなぁ、と感慨深い。解析速度とモデルのファイルサイズとの兼ね合いではあるが、係り受け解析自体は(並列構造など、難しいことが分かっている積み残された課題の他にも)まだ伸びしろがあるとは思う。問題は、そこを伸ばしたとして、じゃあ具体的になにに使えるのか、というところである。速度が遅くて使えない、という向きもあると思うが、アプリケーションによっては少しくらいはオフラインでやってよかったとしても、そもそも係り受けのデータがあって嬉しい(自然言語処理分野以外での)ケースってあるのだろうか?

このあたりは先日 Yahoo! Labs から来ていた Patrick Pantel さんとも話したのだが、「研究が少しずつ前進していることは分かるのだが、お互い引用し合ってその中で閉じているような研究だと、それをやる意義を上司に認めさせないといけないので、企業でやるのは、全く不可能ではないが、難しいだろう」という話で、それもそうだなぁ、と思う。機械翻訳とかもっと上のレイヤーの自然言語処理は、係り受け解析を前提として使ったりするので、ここの精度が悪いのは大きな問題なのだが、自然言語処理以外の人にはあまり伝わらないような気もする。(でも、そんな応用とか七面倒くさいことをぐちゃぐちゃ言わないで、「これは確実に他の処理でも使うので大事」とだけ言うのも潔いとは思う。実際そうだし)

少し @taku910 さんや @yt76 さんと話したあと、@murawakiさんや@Tzawaさんら、京大の自然言語処理の学生さんたちのラーメンツアー(?)に合流する。@ssyn さんお勧めのラーメン屋。梅田のラーメン古潭という店なのだが、確かにこれはいいかも。今度梅田に来ることあったら帰る前に寄ってから帰ろうかな。