Qu’est-ce que le Deep Web ?

Le contenu des sites Web et des boutiques en ligne n’est pas entièrement accessible à l’ensemble des internautes et des moteurs de recherche. La partie du contenu dont l’accès est restreint est ce que l’on nomme le « Deep Web ». Ces restrictions d’accès existent pour différents motifs.

Votre propre domaine .fr !

Démarquez-vous avec un nom de domaine unique et une adresse email personnalisée !

Simple
Sécurisé
Assistance 24/7

Deep Web : définition

La majorité des gens n’ont probablement jamais entendu parler du « Deep Web ». Ce terme générique désigne les informations auxquelles on ne peut accéder directement via un moteur de recherche ou en saisissant une URL. Il s’agit de la majeure partie des informations et sites normalement disponibles sur Internet. Cela inclut entre autres les bases de données d’entreprises, d’universités et de musées consultables seulement au moyen d’un identifiant, les comptes bancaires, les paniers d’achats, les comptes utilisateur de boutiques en ligne... Stricto sensu, le Deep Web englobe également le Dark Web, bien que leurs contenus respectifs soient très différents.

Différences entre Deep Web, Dark Web et Internet

Commençons par définir clairement ce qu’est Internet tel que nous le connaissons. Tous les moteurs de recherche, sites d’actualité, boutiques en ligne et pages personnelles trouvables via un navigateur comme Chrome ou Firefox et pour lesquels aucune information de connexion n’est demandée appartiennent à ce que l’on nomme le Surface Web (bien qu’une petite partie appartienne quand même au Deep Web du point de vue des moteurs de recherche). Nous y reviendrons dans les paragraphes suivants.

Le Deep Web, qui représente une part nettement plus importante d’Internet, comprend tous les contenus soumis à des restrictions. Google et les autres moteurs de recherche ne peuvent pas indexer ces données.

Le Deep Web comprend le Dark Web. L’accès au Dark Web est encore plus strictement réglementé et s’effectue uniquement grâce à des technologies spéciales. Malheureusement, ces restrictions et l’anonymat total qui y règne font du Dark Web un haut-lieu de la criminalité numérique. Dans les paragraphes suivants, le terme « Deep Web » exclut le Dark Web et fait uniquement référence aux contenus décrits plus haut.

Pourquoi le contenu du Deep Web n’est pas trouvable

Comme nous l’avons déjà dit, le contenu du Deep Web n’est pas trouvé et référencé par les robots d’indexation des moteurs de recherche car son accès est restreint et demande de fournir un identifiant et/ou mot de passe. Des conditions d’utilisation à accepter ou une barrière de paiement sont d’autres obstacles possibles. Dans tous ces cas de figure, en tant qu’utilisateur, vous ne pouvez accéder à l’URL que si vous avez préalablement indiqué un mot de passe ou accepté le paiement.

Mais il y a encore une autre situation sur le Deep Web : vous pouvez consulter une page dont vous connaissez l’URL alors que celle-ci n’a pas encore été trouvée et indexée par le crawler du moteur de recherche. Il peut y avoir plusieurs raisons à cela.

D’une part, un webmaster peut empêcher l’indexation du contenu en utilisant la commande nofollow. D’autre part, il est possible qu’une page soit cachée dans un site afin que le robot ne puisse pas la trouver. Pour chaque site Web, le robot dispose pour ainsi dire d’un « budget de pages » limité. Si ce budget est épuisé alors qu’il reste des pages de niveau inférieur, celles-ci sont ignorées. Une troisième possibilité concerne des conditions techniques non remplies pour l’indexation, par exemple l’emploi de Flash.

Ce que le contenu du Deep Web signifie pour votre site web

Normalement, le contenu du Deep Web sur votre site ne pose aucun problème, ni pour vous, ni pour les visiteurs. Au contraire même : on trouve ce genre de pages sur quasiment tous les grands sites et dans les boutiques en ligne, et les utilisateurs n’ont qu’à s’identifier pour y accéder.

La seule conséquence négative d’une non-indexation par Google concerne l’optimisation du référencement sur les moteurs de recherche. En effet, il n’est pas rare que le contenu pertinent se cache derrière une restriction d’accès, notamment dans les domaines scientifiques et médicaux. Votre objectif devrait être de faire en sorte qu’un maximum de contenu soit librement accessible et indexable (dans la mesure où la loi et la politique de l’entreprise le permettent), ou tout du moins de concevoir des pages de renvoi qui donnent aux moteurs de recherche une idée de ce qu’il y a (encore) à trouver sur votre site.