UniDic とかな漢字変換の微妙な関係

午前中、タグ付け仕様書を眺める。なるほどな〜、と思う。NAISTコーパスはアノテータさんの賜物であることを実感する。自分はこういうデータから機械学習して論文を書いたりしているが、これは研究なのだろうか、と思ったりなんだり。

昼、これまでの業績の登録をしていく。6月30日までにしないといけないようなのだが、登録サイトは学内からしかアクセスできないので……。大学全体で業績管理を新システムに移行することが決定しているらしいのだが、どうもまだまともに使える状態にないようで、結局旧システムにちまちま登録。

午後、機械翻訳の勉強会では shuhei-k さんが SMT 本の Decoder の章を解説。1時間くらいでさくっと終了。フレーズベースの翻訳手法はここまでで一通り見たかな〜 (繰り返しになるが、統計的機械翻訳の世界では、「フレーズ」というのは「名詞句」のような言語学的に意味のある単位ではなく、単なる単語列のことであるが)。松本研の勉強会の例に漏れず順調に参加者が減り、だいぶ適正な人数に近づきつつある。たぶん今くらいの人数がいちばんよい。

勉強会の合間を縫って来週の出張のチケットを届けてもらう。ESTA をまだやっていなかったのだが、どうやら2009年にアメリカに行ったときは J-1 ビザを持っていたので不要だったようである。今回はビザなしなので、ESTA の登録をしないといけないみたい。で、申請してみたのだが、滞在先の住所を書かないといけなかったので、まだホテルも取っていなかったのに気がついて慌てて予約。全部入力したと思ったら、なんか「すぐには判断できないので保留になります」と表示されたり……それは困る! 出発の72時間以上前に完了していないといけないようなのだが、それって水曜日の夜ってこと? 

夕方は意味談話解析勉強会。今回は teruaki-o くんの論文紹介

  • Dan Gillick. Sentence Boundary Detection and the Problem with the U.S. NAACL HLT 2009

と進捗報告。タイトルは最初ミスプリかと思ったら、本当に "U.S." だった。どうやら、英語の "." は省略記号と文末記号と、そして省略記号かつ文末記号の3通りで使われるので、このうち文末記号として使われるものを判定したい、という問題を解くという研究で、"U.S." の2つ目の "." が一番エラーが多い文末記号だった、という話。

内容自体はそりゃそうだろうという話だったが、この文分割問題で Computational Linguistics (自然言語処理でいちばん権威がある論文誌。それでもインパクトファクターは1とか2とかだった気がするが……)にこの10年で何本も論文が通っていることを知って衝撃 (リファレンスにいくつか載っている)。多言語で(教師あり/教師なし)文分割をやるのはそれなりに奥が深い問題のようである。松本先生も、日本語コーパスYahoo! 知恵袋Yahoo! ブログが入っているのだが、ウェブの文章は必ずしも文末に句点を置いてくれないし、改行も必ずしも文境界にはならないので、自動で文分割するツールは求められている、という話をされたり。

文分割の話から脱線して UniDic の話になって、いろいろと形態素解析と辞書の微妙な関係についてお話をお聞きしたり。一度 UniDic の辞書エントリから「読み」が消されそうになって (発音だけでいいじゃないか、という意見があった)、「読み」を残すために松本先生が「読みはかな漢字変換で必要だから残してほしい」と言ったら残った、という話、初耳だったが、UniDic に読みが残ってくれてよかった (笑)

松本先生が最後略語について考えてほしいというので研究的ななにかと思ったら、手帳に勉強会の名前を「意味談話」と書くのは面倒くさいから、もっと書きやすい略称を考えてほしい、ということだった (たとえば「機械翻訳」は machine translation なので MT)。確かに自分も手帳に書くときは面倒だなと思っていたので、短い表現を考えたほうがいいかな。