ウェブマイニングは怖くない

午前中はメール処理。月1くらいで大学院の受験生からメールが届くのだが、基本的に行きたい大学院の行きたい研究室にまさに在籍している最中の学生に聞いたほうがいいと思う。大学院は研究室で過ごす時間がもっとも長く、ある意味家より長い時間を教員や先輩、同期、後輩と共有するので、そこに実際にいる人でないと、全然様子が分からないし。

研究室によって全然違う、という文化にピンとこない人も(いわゆる文系の人、あるいはまだ学部生以下の人を中心に)けっこういるようなのだが、要は自分の家と隣の家は全然違う(可能性がある)というのと同じような感じ、かな?たとえば、マンションだと値段が決まっているので大体似たような世代、年収、価値観等々の人が集まりやすいとは思うが、それでも絵に描いたようなマイホームパパの家庭もあればDVする家もあり、はたまた浮気でドロドロの家もあるだろう。外から見るだけではよさそうに見えても、中に入らないと分からないことがあるのだ。研究室も、これと同じで、外から見るのと中から見るのは全く異なるのである。

お昼から後期の研究会のキックオフミーティング。後期は

  • 研究会(進捗報告)
  • NLPセミナー(国際会議の論文紹介)
  • 機械学習の基礎勉強会(「言語処理のための機械学習」をB3の学生たちと読む)

の3本立てで行くつもり。松本研のM1は授業と勉強会を合わせると1日2-3コマ出ているので、全然足りていないと思うのだが、うちはどれだけがんばっても5つが限界かなぁ。来年度も研究室にいる人たちは2回基礎勉強会に出てもらうのはなんなので、TAになってもらうとか、やり方を考えないと……。

午後は学内の委員会と事務。NAISTにいたとき、委員会は年1回だけオフラインで集まるものだったが、首都大では月に1回集まるので、けっこう頻繁に回ってくる。他のコースの先生方と仲良くなれるのでよいが、集まるのはせいぜいこの半分でいいような気もする。

夕方は学生室に行って少し進捗を聞く。クローリングとスクレイピングのやり方について話す。こういうの、自分は見るとすぐどうやったらページを取得できるか、内容を抽出できるか分かるのだが、そういうのが分からない人はどうやって身につけたらいいのだろうか?

考えてみると、知らなくちゃいけない知識は少しだけで、あとは背後でどういうデータを持っていてどのように表示させているか、を想定すれば大丈夫だと思うのだが、中身がどうなっているのかを想定するのが難しいような。データを提供している側のことは考えなくてもデータは抽出できるのだが、気持ちやアーキテクチャアルゴリズムを想定したほうが簡単で、それってけっこう知識が必要だと思うのである(結局うだうだ言うより場数を踏んだほうが速いのかもしれない)。簡単に思う人には簡単で、難しく思う人には難しい、そういう類のタスクなのかもしれない。

夜はコース会議の議事録作成。すぐに作成しないと記憶が一気に薄まっていくのでしんどい。そして、議事録を作成してコース長にチェックをお願いし、何度か往復するとすぐ次のコース会議の案内を送る時期で、送ったらもうコース会議なので、毎月常にこれに関する仕事をしているように錯覚する。毎週なにかあるほうが、仕事のやり忘れがなくなってよいというメリットもないわけではないが……。