Open Directory Project と人手によるタグ付け

今日の機械学習勉強会では @tettsyun くんが

  • Qinfeng Shi, James Petterson,Gideon Dror,John Langford, Alex Smola, Alex Strehl,Vishy Vishwanathan. Hash Kernels. AISTATS-2009.

の紹介をしていたのだが、その中で Dmoz を評価で使っていて、「Dmoz ってなんですか?」と言っていたので、うーむ、そういう時代かぁ、と思った。

Dmoz はOpen Directory Projectドメインで、ボランティアによってメンテナンスされている、大規模なウェブディレクトリのことである。そもそも、いまどき検索エンジンディレクトリ型とロボット型があって、などというふうに言ったところで、ほとんどの検索エンジンがロボット型なので、ディレクトリ型がなにか具体例を挙げて説明することも難しいのだが……。ちなみに、Dmoz というのは Directory Mozilla から名前が取られている。

自分自身 Dmoz について知ったのは

続・HTML入門―新機能、CGI、Webの進化 (INTERNET BOOKS)

続・HTML入門―新機能、CGI、Webの進化 (INTERNET BOOKS)

  • 作者: ローラリメイ,アーマンダニッシュ,Laura Lemay,Arman Danesh,武舎広幸,久野靖,久野禎子
  • 出版社/メーカー: プレンティスホール出版
  • 発売日: 1998/08
  • メディア: 単行本
  • この商品を含むブログ (1件) を見る
だったような気がするが、98年出版というと、もう10年以上前。さすがにウェブ関係で10年以上前の資料は見ても意味ないだろうなー。あのころは機械学習もこんなに盛んではなかったし、ひたすら人手でこういうタグをつけていくのが必要だったのだろう。論文では現在400万件登録されているそうだが、延々タグづけするのもすごいものである。

いまどきはわざわざ専門の編集者が「このページはこういうカテゴリです」とタグづけしなくても、deliciousのようなソーシャルほにゃららサイトで誰かがタグづけしてくれた結果を使えばいいわけで、こういうオープンほげほげプロジェクトが流行らなくなるわけである。ブックマークに登録する人ひとりひとりが編集者となってタグづけをしてくれている、という寸法。

一応Yahoo! カテゴリという形で従来の検索方法も残っているようだが、昨日のYahoo! BOSS の話も、検索結果から delicious のタグを取得できるようになっていたが、あえて労力をかけてディレクトリを整備する必要はない時代なのだろう。

そういえばYahoo! Japan のエンジニア経験者採用から研究所の採用が消えてしまったのだが、なにか方針の転換があったのだろうか……。自然言語処理の研究している人が行けるところの一つとして、悪くないところだと思ったのだが……。Google 日本はエンジニアの採用を伸ばしているようだが、対照的だなぁ。