SIGNL 213: 現実的な形態素解析器の入力→「ずももももぺろぺろぺろぺろマミタスマミタスラブマミタス」

朝の6時に起きてNL研 (情報処理学会自然言語処理研究会)。今回は山梨大学である。中央線で1本なので、とても近い。自宅からドアツードアで2時間かからない。

甲府に降りるのは初めて (車や電車で通過したことはある) で、弟が甲府で仕事をしていたときに一度遊びに行こうかと思っていたのだが、ついぞ機会がないまま弟は東京勤務に戻ったので、行くタイミングを逸していたのであった。

トークの中ではやはり daiti-m さんの話が抜群におもしろく、理学寄りのモチベーションながら工学的にも嬉しい手法の研究をする、という研究スタンスは素敵だなぁ、と改めて思う。deep learning に食指が動かないのも、パラメータの自由度や手法が多すぎて調整が難しそう、というのがあって、確かにやってみないとそういうノウハウが得られないのでやる意味はあると思うのだが、激しくチューニングをしないとベストなパフォーマンスが得られない (むしろ多くの場合適切にパラメータを決めないと性能が出ない) というのは実用上生き残れないだろうし、そういう意味で今回の daiti-m さんによるパラメータ調節が最小限で deep learning による結果とほぼ同等の精度が得られる手法というのはすばらしい。(調整が難しいのは、自然言語処理特有の事情かもしれないが)

あと、[twitter:@uchumik] さんの教師なし・半教師あり形態素解析の話も興味深い。解析対象が「しょこたんブログ」なのだが、今日の日記タイトルのように、確かにこれを解析するのは……(白目)。座長の[twitter:@hitoshi_ni] さんが「ここから情報抽出する必要があるのですか」とおっしゃっていたが、自分もこういう文章を処理しないといけないと思うと一瞬「うっ」となってしまうかも。あと、主要な貢献として挙げられている分かち書きと品詞推定の同時解析の先行研究自体は、中国語ならすでにあるような気がするのだが……(ただし教師ありなので、実験設定を誤解しているかも)

お昼は参加者の方々と甲府駅前の小作というお店でほうとうランチ。山梨に来た感がある。ほうとうとかけんちん汁とかいった汁物の味が好きなのだが、なんでだろう。

自分はみなさんと別れて一路大学に出勤。首都大は八王子にあるので、甲府から1時間程度で行けてしまうのであった。八王子で降りて首都大行きのバスに乗ると、ばったりS先生と同じ便。S先生もずっと出張で、今帰ってきたらしい。2人とも4月から准教授になったので、授業の準備をするのは大変ですよねえ、なんて話をする。通信系の方々と比べて自分は高額の研究費を取らなくても研究できるという意味では、恵まれているように思ったが、それでもこの秋は科研費の申請書を書かないといけないのを思い出してブルーになる。(授業の準備と並行して書かないといけない)

夕方に学生の進捗報告。とはいえ、今週は旅行に行っていたそうで、実験の進捗ではなく発表のスライドを軽くチェック。本当はこういうスライドは全員同時に発表練習して、お互いにコメントを共有できたほうがいいのだが、授業期間でないので全員の予定が揃わず、仕方ない。10月以降、また進捗報告の進め方を考えよう。