データを見て感じたことを自分の言葉で語る

午前中、日本語書き言葉コーパスのタグ付けミーティング。3人で細々と。

少しずつ作業者さんの頭の中にある膨大な知識が分かってきたのだが、なかなかこれは大変なことである。というか、この状態でたとえば作業者さんが一身上の都合で辞めてしまうと、人類はこの知識にアクセスできなくなってしまうわけで、こんな脆弱な環境の上で研究しているのか……と思うと空恐ろしいものがある。「わたしもこんな基準でつけてるんだ、って今回分かってよかった」とおっしゃっていたのが救いである。

それに関連して助動詞について調べてみたり。そういえば中学受験のとき「れる・られる」の用法は「受け身・可能・自発・尊敬」と念仏のように唱えて覚えた記憶があるのだが、まさにそれを追体験。動詞について調べないと。最近言語学をまた勉強している。先日の言語学×自然言語処理合同勉強会でも「80年代以前は仲が良かったのに(統計や機械学習が出てきてどんどん離れていってしまった)」という発言が何回か出てきたが、ちゃんとここを元に戻さないといけないと思っている。

ny23 さんの日記でも、今年のCOLING 2010という会議について

そもそもデータありきの分野なのに,数字(精度)だけ出して定性的な分析のかけらも話さないとか,そんな発表聞いてても全く賢くなった気がしない.技術的な深みがあるなら,それにスライドを割くのも分かるけど,自分の貢献でも無いところに何枚もスライドを割いてどうするのだ.精度みたいな一次元的な尺度でなくて,実際にデータを見て感じたことを,自分の言葉で話して欲しい(パネルディスカッションでも code monkey が増えているというような話があった).タスクで目標とする精度が何%で,その目的を達成するために後どういう問題が残っているか(その問題のうち何に一番最初に取り組むべきか)検討したりしないのだろうか.実験やったらやりっ放し?基礎研究だけやるにしても,そこまでやらないと意味ないと思うのだけど.

という指摘があり、大いに同感。SVM/CRF/etc を適用しました、こんな精度出ました、だけだったら研究にならないし、論文に書かれているこういう手法を実装しました、だけだと研究にならないどころか論文にも書けない。情報系はせっかく応用と理論が近いところなので、コードが書けることは基本的には歓迎することなのだが、自然言語処理は特殊な分野であり、言語という生のデータを扱っているわけで、そういう実際の問題と格闘して、解けなかった問題を大事にする、そういう姿勢が必要である。(タスク自体、つまり言語に興味がない人が増えただけかもしれないが……)

午後、EMNLP (統計的手法・機械学習を用いた手法を中心とする、自然言語処理のトップ会議のひとつ)の論文読み会。各論文の内容は id:syou6162 さんが今日の日記にまとめてくれているので割愛。うーん、いろいろコメントに困るが、自分も実験して論文を書き、ちゃんと投稿しないとだめだな、と思った。