Les multiples usages des données de l'ODP

by

Voici une traduction libre d’un article paru en anglais dans la lettre d’information de l’ODP, au sujet de l’utilisation qui est faite aujourd’hui des données de l’Open Directory Project (DMOZ).

Il est basé sur les premiers résultats du projet interne Investigating Data Use.

Tout le monde sait que l’on peut utiliser un annuaire Web pour trouver… des sites Web. C’est l’éventail des autres utilisations possibles des données de l’ODP qui peut surprendre. Ne sous-estimez jamais l’ingéniosité des humains…

Des données disponibles pour tous, dès le début

Le projet Open Directory a été conçu en 1998 comme un concurrent à Yahoo! À ce moment-là, l’annuaire Yahoo! était l’outil de recherche sur Internet le plus connu du monde, mais son équipe limitée d’employés rémunérés ne pouvait suivre la croissance explosive du World Wide Web. D’un autre côté, l’ODP, nouvellement créé, invitait tous les « citoyens du Net » à le rejoindre pour aider à cataloguer le Web. Pour convaincre la communauté des utilisateurs du Net qu’ils travailleraient pour tout le Web et pas seulement pour le propriétaire de l’annuaire, Netscape s’engagea dans une démarche révolutionnaire : toutes les données de l’annuaire furent mise à la disposition de tous ceux qui souhaitaient les télécharger, sous une licence d’utilisation gratuite, y compris pour les « concurrents » du répertoire.

Sept ans plus tard, que fait-on aujourd’hui des données de l’ODP ?

Des simples copies à des utilisations plus créatives : un large éventail

Dans les premiers temps de la licence d’utilisation gratuite, cloner l’annuaire ou des parties de l’annuaire était la manière la plus courante d’utiliser les données, et elle reste aujourd’hui populaire. Le nombre de sites Web qui hébergent des copies de l’annuaire peut tout juste être estimé, mais il atteint plusieurs milliers. Une approche commune est d’ajouter de la publicité et un aperçu des sites Web en personnalisant l’aspect de l’annuaire. Les utilisateurs les plus créatifs du répertoire ne se sont cependant pas contentés d’en copier le contenu. Ils le réorganisent. Alors que l’ODP présente dans ses catégories des sites classés par ordre alphabétique des titres, plusieurs utilisateurs des données ont leur propre système de classement. Le plus connu d’entre eux est l’annuaire Google, qui classe les sites selon son propre indice, le PageRank, et Alexa, qui classe les sites selon ses propres statistiques de popularité. D’autres utilisateurs brassent et mélangent les ressources inscrites dans l’ODP dans de nouvelles catégories.

Une ressource précieuse et facilement accessible pour améliorer les performances des moteurs de recherche

À un niveau supérieur, la masse de ressources classées dans l’Open Directory est un terrain de chasse apprécié des robots indexeurs des moteurs de recherche. Le nombre de moteurs de recherche qui ont construit leur premier index sur la base des données de l’ODP est tel que Brett Tabke, de Webmaster World, a décrit le répertoire comme étant « littéralement la mère de tous les moteurs de recherche » (lire le fil de discussion correspondant sur Webmaster World). L’ODP fournit aussi une source facilement accessible de titres et de descriptions de sites Web, qui peut être utilisée dans la présentation des résultats des moteurs de recherche. Google, Yahoo!, la recherche MSN et Ask utilisent tous les titres et les descriptions de l’ODP quand aucune autre source n’est disponible.

Des applications encore plus poussées pour les outils de recherche de dernière génération

Les véritables hybrides entre moteurs de recherche et annuaires vont beaucoup plus loin. Les personnes qui expérimentent dans ce domaine ont tourné et retourné l’immense base de données de l’ODP dans tous les sens. Par exemple le moteur de recherche avec « mise en grappes » (clustering) des résultats Exalead l’utilise. Un moteur de recherche « sectoriel » peut aussi être créé en n’indexant que les sites classés dans une catégorie spécifique de l’ODP. Gigablast en fait la démonstration à grande échelle, en fournissant une recherche spécifique pour chaque catégorie. Les données de l’ODP peuvent encore alimenter les « liens relatifs » présentés par les outils de recherche tels que la barre d’outils UCMore, ou permettre l’entraînement de robots indexeurs ciblés, comme ceux qu’utilise Data Fountains. L’ODP peut même contribuer aux algorithmes des moteurs de recherche. Par exemple, Boning Wu, Vinay Goel et Brian D. Davison ont récemment utilisé une partie des données de l’ODP pour concevoir le TrustRank Thématique (Topical TrustRank).

Une mine d’or pour les chercheurs dans des domaines qui dépassent le secteur de la recherche sur le Web

Mais l’histoire de cette créativité ne s’arrête pas là. Les presque cinq millions d’adresses URL classées en catégories et l’énorme système de classification créé par des humains attirent les chercheurs intervenant dans le domaine des moteurs de recherche mais aussi ceux qui travaillent dans de nombreux autres domaines. Plus de 100 articles scientifiques ont été publiés qui utilisent les données de l’ODP. L’échantillon présenté dans la catégorie ODP Research Papers illustre l’éventail des sujets qui va des applications de recherche à la classification de textes, de l’analyse sémantique au test de logiciels.

L’enthousiasme de bénévoles a permis de créer le plus grand annuaire du Web. Cette réussite a nourri d’innombrables idées dans le monde des outils de recherche. Qui sait où ces idées pourraient un jour conduire ?

jeanmanco et chris2001

5 Réponses to “Les multiples usages des données de l'ODP”

  1. Mathieu Says:

    La licence libre a ses inconvénients et aventages. Certes c’est à cause de celà qu’on a des sites comme DMOZ.fr mais c’est ca la rançon d’un succès dont l’ampleur vient justement de la gratuité.

  2. Graeme Says:

    La gratuité c’est bien, et je suis pour. Mais comment fait l’ODP, et surtout Netscape, donc Aol, pour héberger, financer, maintenir tout ça ?
    Cela a un coût, c’est certain, car Dmoz est l’un des sites les plus fréquentés du web.
    Je n’arrive pas à imaginer ce qu’il adviendra lorsqu’Aol aura envie de fermer le tout pour cause de perte financière.
    Et vous ?

  3. Atuvu Says:

    J’ai trouvé l’article tres interessant et bien expliqué. Pour ma part j’ai mis en ligne des copies dans des repertoires de certains de mes sites, c’est interessant d’avoir un annuaire sur son site, les visiteurs reviennent et trouvent des bons sites grace a Dmoz, merci 🙂

  4. astrozygote Says:

    Graeme, on peut effectivement imaginer le pire (je ne dis pas que ça va arriver). Mais le stockage sur des serveurs est une chose, le savoir faire en est une autre.
    Il faut comprendre qu’il y a le "logiciel" qui est stocké avec les données qu’il a aidé à générer et les éditeurs (la matière grise) qui ont fabriqué cet ensemble.
    Si AOL finance l’ODP, c’est qu’ils y ont des intérêts. Sans être trop prétentieux, je ne pense pas que c’est que pour la publicité, à la lecture de cet article.
    D’autres l’auront sûrement compris.

  5. Dmoz | Encyclopédie Says:

    […] Référence: AEF-Dmoz. […]

Répondre à Mathieu Annuler la réponse.