ソシュールを読まないべきか読むべきか

朝、出勤して学部4年生の研究テーマについて相談を受ける。読解支援勉強会、独自の発展を遂げていてすごい。生物が進化する条件として、外界とある程度隔離されていること、という説があるが、まさしくそんな感じ……。

最近、研究の内容を聞くとそれが最終的にどのレベルの国際会議に通りうるネタか、ということは割と予測できるのだが(実際査読をしているので、そこそこ正確だと思う)、これは善し悪しで、勝手に研究のスコープを狭めてしまっていたりするのだろうな、と思う。こんな感じか、と思ったとしても、あまりあれこれ言わず、とりあえず黙っていて、好きにやってもらう(そうすると予想外のおもしろい成果につながることもあるだろう)、というポリシーもありかなと。

午前中、受験希望者の見学対応。自分と同じく人文系出身の人で、興味や関心も近いので、割といろいろ話せる。研究室になかなか言語学について詳しい人が入ってこないので、言語学関係の入門書を読んだほうがいいのかと思ったりもしているのであった。今日は「ソシュール」という単語を知らない人のほうが多かったようなので、やはり一応基本的なところは勉強したほうがいいのでは?と思わなくもない(「チョムスキー」は全員知っていると思うが)。SLP(自然言語処理の教科書)でも、言語学に近い統語論のところは全部後回しにしてしまっているのだが、やはり通しで全部読んだほうがいいのだろうな……。

昼過ぎに論文紹介。

  • Collobert and Weston, A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning, ICML 2008.

を紹介してもらう。深層学習界隈ではよく C&W などと書かれたりする、有名な論文のようである。いろんなタスクを統一的に学習できる、というのが利点であるという話だが、一見した印象は、パラメータが多くてチューニングが大変そう、というもので、じっくり読んでみると、周辺の1単語から現在の単語を予測する(単語同士の相関関係は考慮されない)というタスクのようなので、この設定だと言語モデルくらいでしか大幅に性能が向上したりはしないのでは、と思う(あと、恐らく語義曖昧性解消はよくなる可能性がある)。

逆に言うと、この程度の情報でいろんなタスクがそこそこ解ける、ということのほうが驚きなのだが、自然言語処理的には、もう少し構造的な情報を入れたいのではなかろうか。まあ、このあたりが、自然言語処理は素性を人手でマイニングできるから深層学習がそんなに劇的に勝てない、と言われる所以なのかもしれないが。

休み時間に少し M1 の学生と面談をする。面談では、数学(機械学習)とプログラミングと英語とどれが一番厳しいか、という質問をしているのだが、英語が厳しいらしい。こればかりは最初は専門用語をことごとく知らないのでどうしようもなく、ひたすら英語で論文と教科書を読んでもらっているところである。(慣れると楽になる)

午後は研究会である。今週から B4 と新 M1 の人たちの担当が始まったので、聞いているだけでおもしろい。やっぱりサークルでプログラミングをしているとけっこう書けるようである。インターンシップとかアルバイトとか、もっと外でいろいろ経験してほしいと考えていて、授業でもいろいろ炊きつけたりしているのだが、効果のほどが分かるのは来年くらいからかなぁ。

あと、B4 の人たちは順調に(?)読解支援勉強会で研究にどっぷり浸かっているようで、すばらしい。とりあえず9月頭の自然言語処理の若手の会シンポジウム(YANS)で全員発表できればと考えているので、今から楽しみである。

夜は ACL自然言語処理の最難関国際会議) の Student Research Workshop(学生セッション、とはいえ投稿受付番号的には倍率3倍程度?)の原稿の添削。査読のコメントがけっこう厳しかったので、ちゃんと添削のやり取りをしているのである。結局うちの研究室の学生は ACL のフルペーパー1本、Student Research Workshop が2本(ただしうち1本は本学在学中の成果ではない)、というところで、それなりの大所帯で参加できそうである。全日程参加できればいいのだが、自分は(家族会議の結果)本会議の初日に出発し、3日目に帰ってくる(正味2日間)という弾丸日程である。弾丸でも参加できるだけありがたい。