学部2-3年生の授業は意外に大事

午前中はひたすら査読。全部終わったかと思えば、まだ1本あったようだ。これは土曜日に持ち越しだろうか。

午後は離散数学の基礎勉強会である。正規表現について学ぶ。よくよく考えてみると、このあたりを学んでないのにウェブマイニングの研究をするというのも、無理があるか。もちろん、そういうテーマで研究したいなら、授業や勉強会がなくたって、自分で勉強すればいいだけだし、そうしている人が大多数なのだろうが、曲がりなりにも「ウェブマイニングの研究をしています」と研究室紹介で言うのであれば、研究テーマとしてやらない人でも仕事で必要になったらすぐできるくらいの基礎知識をつけた方がいいだろうし。

ちなみにウェブマイニングをしたいという学生さんはウェルカムなのだが、テキストマイニングとウェブマイニング、データマイニングとウェブマイニングはいずれも別物であると自分は考えており、首都大のうちの研究室を受験したいという人でも、テキストマイニングデータマイニングをやりたいという人には、やりたい内容によっては同じ首都大でも高間研か石川研をお勧めしている(うちの研究室だから、と思ってコンタクトを取ってくださる方には申し訳ないが……)。

というのも、自然言語処理は料理でいえば包丁を打つ鍛冶屋のような存在で(このアナロジーで言えば、辞書やコーパスを作る人は農家)、華々しく料理して出すシェフのような存在ではない。テキストマイニングをしたい、と言う学生は恐らく包丁を研ぎたいわけではなく、自分の好きなものを料理したいように感じられるので、うちの研究室では期待外れではないか?と思ってしまうのである。(どちらがいい悪いという話ではなく、どちらも必要であるが、求めているものが違う、ということ)

などということを考えつつ、ウェブテキストでも切れ味鋭く(?)スパッと切ってくれるような形態素解析器とか、文脈を理解して空気を読む意味解析器とか、そういう基礎的な要素技術の研究をしたい人が来てくれるといいな、と思うのであった。それ自体は華々しくはないけれど、それを使って仕事をする人をさりげなく助けてあげられるような、そんな技術の研究開発をしたいものである。

午後は学部4年生でうちの研究室を受けたいという人の見学。ちょっと自分が話し過ぎてしまった気がする。自分の研究室に関しては、他と併願してほしくないということは全くなく、いくつか受けて受かった上で、行きたいところを考えてどこに行くか決めてもらえればよいと思うので、他の研究室もいろいろ見てもらってかまわない(併願先の研究室も同じようなポリシーであるとは限らないが)。

夜は IIR (情報検索の基礎)勉強会。Dictionaries and tolerant retrieval という章で、辞書のデータ構造の話に加え、ワイルドカード検索とスペル訂正のお話。

辞書のデータ構造に関しては、データごとにどれくらいのバイト数を使うか、ということを概算でいいのでざっくり計算するという感覚を身につけてもらいたいのだが、自分でいじってみないとあんまり意識しないのかもしれない。あと、うちの学生は平衡木や赤黒木も聞いたことがないらしい(ソートもやってない)のだが、「データ構造とアルゴリズム」や「データベース」の授業で何を習っているのだろうか……。

ワイルドカード検索に関しては、自分も最初この本を読んだときにたとえば Permuterm の実装なんかは「賢い手法をかんがえる人もいるものだなぁ」と思ったもので、そういう「その分野の人は常識的に知っている、実装は簡単だけどけっこう興味深い」ような手法を知ることができるのが、隣接分野の教科書を読む楽しさであろう。

スペル訂正についてはざっくりとした内容だが、動的計画法もノイジーチャネルモデルもB4の人たちは知らないようなのでホワイトボードで説明したり。基礎的な教科書一冊読むにも学部2-3年生程度の情報科学の基礎知識が必要で、そのあたりがところどころ抜けているので適宜補っている。自分の分野の教科書を読むために必要な知識は学部2-3年生の授業で教えることにしているので、今の3年生が研究室に配属されるころには、みんな1回はどこかの授業で聞いたことがある状態になるかな?