日本の機械翻訳研究を盛り上げようの会

昼からいろいろと仕事。機械翻訳勉強会は今後論文紹介と本の輪読の2本立てになったようだ。本は、何回かこの日記でも取り上げているが、

作者: Philipp Koehn
出版社/メーカー: Cambridge University Press
発売日: 2009/12/17
メディア: ハードカバー
購入: 1人クリック: 12回
この商品を含むブログ (16件) を見る

を読む。第1部は自然言語処理の基礎的な内容で、わざわざこの本で読まなくてもいいような内容なので飛ばし、第2部の Core Methods のところを M1 中心に輪読する感じ。@hidetokazawaさんが正誤表と勉強メモを公開してくださっているので参考になる。第3部はいろいろな advanced topics が書かれているが、それぞれ専門の人が書いたほうがよかったんじゃないかなぁ。

ともあれ、統計翻訳に必要ないろいろなアルゴリズムが疑似コード付きで載っているのは稀なテキストだと思うし、機械翻訳のツールキットってソースを読んで理解しようとすると「なんだこれ」って思うのが多いので、こういう本を読んで自分で実装しながら考えるのが一番いいように思う。論文も最近のものまでかなりリファーされていて広範な話題もカバーされているし、テキストとしては悪くないんじゃないかなぁ。(研究書として見ると確かに微妙かもしれないが……)

D1 で katsuhiko-h くんも入ったし、M で翻訳を研究テーマにしそうな人も何人かいるし、しばらく松本研で統計的機械翻訳の研究をやろうかなという気がしている。述語項構造解析の研究といい、修士のころにやっていた仕事の落ち穂拾い的な感じなのだが、やっぱりもともとそういうことがやりたくて自然言語処理研究の道に入ったので、そういうところに帰っていくのかなという気もする。2005年当時は業界的にも自分的の能力的にもやりたくてもできなかったことがいろいろあったように思うが、あれから5年経って状況が変わってきたので、再度挑戦してブレイクスルーがありそうな予感がしている。ま、直感を信じて外すほうが、直感を信じないで外すより後悔しないので、おもしろそうなことに挑戦するということかな。チームで研究ってのも、これまでしたことないのでやってみたいしね！

そういえば NAIST サマーブートキャンプの案内が出たらしい。

自分もテーマ募集しているので、興味ある方はどうぞ。

テーマ名

統計的機械翻訳システムの構築(自然言語処理学)

概要

現在市販されている機械翻訳システムのほとんどはルールベースのものであり、人手で文法や辞書を構築するといった多くの作業が必要でした。Google翻訳などの近年研究されている翻訳システムの多くは、大規模な対訳文を統計的に処理することで自動的に文法や辞書に相当するものを獲得することができ、世界中で盛んに研究がなされています。本研修ではオープンソースで公開されている統計的機械翻訳システムと大規模な対訳文対を用いることで、自分のパソコンで統計的機械翻訳エンジンを動かし、統計的機械翻訳の現状と課題について理解を深めてもらうことを目的とします。

要件

プログラミング経験があることが望ましいですが、なくてもかまいません。可能であればチューターについてもらう予定です。文系の学生も歓迎です。

受け入れ上限

4

id:masayuaさんによるテーマはこちら。

テーマ名

検索エンジンを作ろう(自然言語処理学)

概要

オープンソースソフトウェア Nutch を利用して、日本語対応の検索エンジンを自作します。

要件

Linux のコマンドライン上で基本的なファイル操作・エディタ操作が可能であること。

受け入れ上限

2

どしどしご応募ください！(遠方からの参加者の場合、先着順で学内のゲストハウスが無料で使用できます)
NAIST 情報科学研究科のトップページもリニューアルしたので、新しいページ見たことない人はぜひどうぞ！ (宣伝)