言語学とのつながりを意識する

今日は出勤日。

午前中は例によって言語学100本ノック。形態素解析のレイヤーの基礎的な話。よくよく考えると、学部の頃の言語学の授業ではよく見かけたが、これまで大学院で自然言語処理に専門を切り替えてからは一度も勉強会等で登場していない(が、論文では見たことがある)ような内容がちょこちょこ出てきている。その度、言語学の勉強をしてから自然言語処理に触れてよかったな、と感じていたのだが、逆に言うと自然言語処理から言語処理に入る人は見ても分からない(知らない)ことが結構あるのでは、と思ったりする。とはいえ、NAIST 松本研に入ってびっくりしたのは、スタッフや D の学生の人たちが、自然言語処理が専門なのに、なんでこんなに言語について詳しいの、と言うことだったので、長くやっていればそのうち身につくことなのだろうとは思うが……(しかしながらうちの研究室だと学部4年生から研究室配属なので、身についてきたころには修士を卒業してしまうのであるが)

昼からは、火曜日から半分移動してきた NLP 応用グループのミーティングと、機械翻訳グループのミーティングを連続で3時間半。合間に10分休憩をもらって、国際会議の支払いを済ませる。教員の法人カードで払うと手続きが楽なので、大学にすぐ来られる人は大学まで来て払ってもらっているのである。もっとも、Zoom でリモートコントロールをオンにするとリモートのキーボードやマウスを乗っ取ることができるようなので、遠隔にいる人でも Zoom で操作させてもらってカード情報を入れることができる、ということを今週知り、昨日はそれであらかた支払ってしまったのであるが。

そういえば、@Tzawa さんがニューラル機械翻訳について解説を書いている「機械翻訳: 歴史・技術・産業」の本を先日送っていただいたので、目を通した。

機械翻訳:歴史・技術・産業

機械翻訳:歴史・技術・産業

これ、書いているのは自然言語処理の研究者なので、統計的機械翻訳を含め、自然言語処理に関する部分の記述は正確でいて、なおかつ数式は一つも登場せずに技術的なことを解説している(かなり難しい)ので、人文系の人で最近の機械翻訳についての流れを押さえたい人には、とてもよい本になっていると思う。タイミング的にニューラル機械翻訳の話が本体に入っていないのだが、その部分を @Tzawa さんが解説で補っている、という形である。まあ、ニューラル機械翻訳の話は発展が著しいので、入れるタイミングによってはかなり中途半端なものが入る可能性があるので、このような形で入っているのはちょうど良かったのかもしれない。

自然言語処理の人からすると、歴史的経緯の部分はよくまとまっているので、背景知識についても知りたい人にはちょうど良いと思う。自分は一昨年に「文化情報学事典」と言うのに「機械翻訳」の項目を書く機会があったので、そのときに歴史については結構調べたが、この本があったらもっと調べるのが楽だったろうに、と思ったりする。2018年前半の段階ではまだ Transformer はそこまで主流になっていなかったと思うが、アテンションベースの手法が主流になることは明らかだったので、アプローチに関してはそんなに迷わずに書くことができた。いま書くとしたらどうなるんだろうかなあー。