Web invisible

Par

Egalement Web caché ou Web profond (deep Web), le terme désigne la partie du Web regroupant l’ensemble des ressources (documents, pages, sites Web) non indexées ou partiellement indexées par les moteurs de recherche ou les annuaires classiques. Les résultats proposés par ces derniers porteraient seulement sur 10 % du Web. Ces documents ou ces sites, qui échappent au balayage opéré par les outils de recherche généralistes, ne sont pas inaccessibles pour autant. Il est possible de les interroger directement, comme c’est le cas pour une base de données. De nombreux répertoires ou portails spécialisés sur Internet recensent les bases de données et les centaines d’outils de recherche spécialisés dans l’indexation des documents «cachés», permettant ainsi d’identifier des gisements d’informations spécialisées. La partie invisible du Web serait 500 fois plus importante que la partie visible.

Le Web invisible se compose des sites web trop volumineux pour être indexés dans leur intégralité, comme des bibliothèques en ligne, des bases de données ; les documents constitutifs d’une banque de données accessibles par un moteur de recherche interne à celle-ci ; les pages accessibles uniquement avec un identifiant et un mot de passe ; les pages volontairement interdites aux robots d’indexation par leur créateur ; les pages écrites dans un format propriétaire encore mal indexé ; les pages dites dynamiques, c’est-à-dire générées par une requête, ainsi que les intranets et extranets.

Les experts américains Chris Sherman et Gary Price, auteurs d’un ouvrage intitulé The Invisible Web, divisent le Web invisible en quatre catégories : The Opaque Web regroupant les pages non indexées par défaillance des moteurs de recherche classique, The Private Web dont les pages sont protégées volontairement, The Proprietary Web pour lequel l’usage d’un identifiant est nécessaire et, enfin, The Truly Invisible Web, inaccessible pour des raisons d’incompatibilité technique.

Une autre terminologie est proposée par la société américaine Bright Planet, leader de la recherche dans ce domaine, adoptant le critère d’accessibilité plutôt que celui de visibilité pour distinguer les ressources reconnues par les moteurs de recherche classiques, le Web de surface (surface Web), de celles exploitables uniquement par des outils d’un autre type, le Web profond (deep Web). Selon Bright Planet qui édite un annuaire du Web invisible (http://aip.completeplanet.com), les 60 premiers sites de ce Web profond sont des sites scientifiques, des bases de données, des sites universitaires, des sites de médias, de commerce en ligne et des intranets de grandes entreprises : ensemble, ils représentent plus de 40 fois le volume de tous les sites du Web de surface.

Un répertoire des outils de recherche pour explorer le Web invisible est réalisé et mis à jour par la Bibliothèque nationale de France (http://signets.bnf.fr).

LAISSER UN COMMENTAIRE