全員が出せたわけではないけれど

朝、なんだか電車が遅れていたのでいつもと違う経路にしてみたのだが、そちらも遅延していて、結局タクシーに乗る羽目に……。授業のある日は1本早い電車に乗るべきだと思った。

午前中はアルゴリズム演習。先週は iPhone のネットワーク帯域の問題で「数えあげおねえさん」を流すことができなかったが、今日は無事 iPhone の帯域が回復したので流してみる。HDMI で繋いだので音もクリアに。楽しんでもらえたようでよかった。

この授業、Aizu Online Judge を全面的に活用しているのだが、同時に30人くらいで使っても大丈夫みたい。教科書の問題を C でやってもらうとほとんど写経になることもあり、Python でやってもらっているのだが、C で書けば通るのに Python だと実行速度的に通らなかったりすることがあるのが微妙なところである(Python のほうが時間制約は長めに取られているようなのだが)。まあ、それも含めて試行錯誤。

昼からは論文紹介だが、先に始めていてもらい、途中から合流。紹介してくれたのは

  • Liu et al. Multi-Timescale Long Short-Term Memory Neural Network for Modelling Sentences and Documents. EMNLP 2015.

である。飛び飛びに更新するニューラルネットワークを組み合わせることで、文章のモデル化がよくなるという話。K個置きに単語を取るのは乱暴である(たまたま出た単語に引きずられる)ようにも思うのだが、むしろ適当に取った単語でもうまく動くように表現学習をして頑健性を高める、という効果かもしれず、単純にこれが悪いとは言い切れない(言語学の人が見たら、卒倒しそうだが)。自分でやりたいとは思わないが、よくこれでうまく行くと思った(そしてうまく行く設定を見つけた)ものだと思う。

午後は研究会で、NL研の発表練習。すぐ終わるかと思ったら、けっこう時間がかかる。研究室のメンバーは、他の人の発表練習をちゃんと聞いて、他の人が言われたことを参考にするようにしてほしい。ひどい資料を作ってくる学生ほど、他の人の発表を聞いていないのだが、本来他の人のコメントも聞いて学ぶことを前提で全体練習しているのである。反面教師になってくれる、という意味では全くの無駄ではないのだが、新入生にしょっちゅう指摘するようなことは、M2 の発表練習で全員の時間を使うべきことではないので……。

夕方は言語処理学会年次大会の最終原稿チェック。結局10件の発表。詳しくはそれぞれの学生の発表を聞いてほしい(予稿を見てほしい)のだが、最近 Facebook で研究室の発表論文の簡単な紹介をする人を何人か見かけて、割と興味が持てたので、自分もやってみる。

  • 大崎彩葉, 唐口翔平, 大迫拓矢, 佐々木俊哉, 北川善彬, 堺澤勇也, 小町守. Twitter 日本語形態素解析のためのコーパス構築.
    • B3 の授業の一環で、Twitter のデータを分析して単語分割と品詞のアノテーションした話。TA の2人も頑張ってくれた。今後の評価データに使いたい。
  • 関沢祐樹, 梶原智之, 小町守. 語構成情報と言い換えパターンを用いた二字漢字の句への言い換え.
    • 9月の NLP 若手の会シンポジウム後の進捗。
  • 野口真人, 梶原智之, 小町守. 語構造情報を用いた日本語複合動詞の言い換え.
    • 9月の NLP 若手の会シンポジウム後の進捗。
  • 小平知範, 梶原智之, 小町守. 均衡コーパスを用いた日本語語彙平易化データセットの構築.
  • 叶内晨, 小町守. フレーズベース機械翻訳における単語間の情報を考慮した深層学習による語彙化並べ替えモデル.
    • 最初は先行研究の再実装からスタートしたが、いろいろデータを見たり結果を見たりしてそこそこ良好な結果が出て、感慨深い。recursive なニューラルネットワーク自然言語処理をする人は好きそうだが、木構造によってはあまり意味ないのかも、と思ったりする。
  • 北川善彬, 小町守. 深層ニューラルネットワークを利用した日本語単語分割.
    • 先行研究の再実装から始まったのだがなかなか期待通りに行かず、試行錯誤。ニューラルな手法って、やってない人から見ると「ニューラルにしただけじゃん」と思うかもしれないが、ニューラルにするだけでもけっこう大変という実感。
  • 堺澤勇也, 小町守. 日本語動詞・形容詞類似度データセットの構築.
    • データの構築にランサーズを用いたのだが、初めて大学の法人カードで支払いをしてみて、そこまで手間ではないことが分かり、収穫。とりあえず、年次大会や研究会レベルでは3万円まで使ってよい、という基準ができた。
  • 朝倉康伸, 小町守, 萩行正嗣. マイクロブログにおける浸水害情報の解析.
    • 機械学習的にもいろいろ試してくれたのだが、結局タスクが重要、という話。[twitter:@mhangyo] さんの教育的なコメントに毎回感動した。
  • 和田賢一, 小町守. 統計的機械翻訳におけるグラフ伝搬を用いた未知語対訳辞書構築の改善.
    • 最後まで実験結果が出ずヒヤヒヤしたが、なんとか間に合って安堵。グラフベースの手法、まだいくつか試してみたいアイデアがあることを思い出した。
  • 平田亜衣, 小町守. Factorization Machines を用いた未知の固有表現分類.
    • テンソル的な何かがしたいという話だったのに結局行列分解になったのだが、結果は期待通りになので個人的には気に入っている研究。どういう素性を使うとどうなるのか、もう少し知りたい。

自分は結局本会議の初日と2日目のみの参加になりそうで、恐らく全員の発表には付き添うことができないだろうが、みなさんの胸を借りるつもりで発表してきてほしい。