Le contenu des sites Web et des boutiques en ligne n’est pas en­tiè­re­ment ac­ces­sible à l’ensemble des in­ter­nautes et des moteurs de recherche. La partie du contenu dont l’accès est restreint est ce que l’on nomme le « Deep Web ». Ces res­tric­tions d’accès existent pour dif­fé­rents motifs.

Nom de domaine
Votre domaine en un clic
  • 1 cer­ti­fi­cat SSL Wildcard par contrat
  • Fonction incluse Domain Connect pour une con­fi­gu­ra­tion DNS sim­pli­fiée

Deep Web : dé­fi­ni­tion

La majorité des gens n’ont pro­ba­ble­ment jamais entendu parler du « Deep Web ». Ce terme générique désigne les in­for­ma­tions aux­quelles on ne peut accéder di­rec­te­ment via un moteur de recherche ou en sai­sis­sant une URL. Il s’agit de la majeure partie des in­for­ma­tions et sites nor­ma­le­ment dis­po­nibles sur Internet. Cela inclut entre autres les bases de données d’en­tre­prises, d’uni­ver­si­tés et de musées con­sul­tables seulement au moyen d’un iden­ti­fiant, les comptes bancaires, les paniers d’achats, les comptes uti­li­sa­teur de boutiques en ligne... Stricto sensu, le Deep Web englobe également le Dark Web, bien que leurs contenus res­pec­tifs soient très dif­fé­rents.

Dif­fé­rences entre Deep Web, Dark Web et Internet

Com­men­çons par définir clai­re­ment ce qu’est Internet tel que nous le con­nais­sons. Tous les moteurs de recherche, sites d’actualité, boutiques en ligne et pages per­son­nelles trou­vables via un na­vi­ga­teur comme Chrome ou Firefox et pour lesquels aucune in­for­ma­tion de connexion n’est demandée ap­par­tien­nent à ce que l’on nomme le Surface Web (bien qu’une petite partie ap­par­tienne quand même au Deep Web du point de vue des moteurs de recherche). Nous y re­vien­drons dans les pa­ra­graphes suivants.

Le Deep Web, qui re­pré­sente une part nettement plus im­por­tante d’Internet, comprend tous les contenus soumis à des res­tric­tions. Google et les autres moteurs de recherche ne peuvent pas indexer ces données.

Le Deep Web comprend le Dark Web. L’accès au Dark Web est encore plus stric­te­ment ré­gle­menté et s’effectue uni­que­ment grâce à des tech­no­lo­gies spéciales. Mal­heu­reu­se­ment, ces res­tric­tions et l’anonymat total qui y règne font du Dark Web un haut-lieu de la cri­mi­na­lité numérique. Dans les pa­ra­graphes suivants, le terme « Deep Web » exclut le Dark Web et fait uni­que­ment référence aux contenus décrits plus haut.

Pourquoi le contenu du Deep Web n’est pas trouvable

Comme nous l’avons déjà dit, le contenu du Deep Web n’est pas trouvé et référencé par les robots d’in­dexa­tion des moteurs de recherche car son accès est restreint et demande de fournir un iden­ti­fiant et/ou mot de passe. Des con­di­tions d’uti­li­sa­tion à accepter ou une barrière de paiement sont d’autres obstacles possibles. Dans tous ces cas de figure, en tant qu’uti­li­sa­teur, vous ne pouvez accéder à l’URL que si vous avez préa­la­ble­ment indiqué un mot de passe ou accepté le paiement.

Mais il y a encore une autre situation sur le Deep Web : vous pouvez consulter une page dont vous con­nais­sez l’URL alors que celle-ci n’a pas encore été trouvée et indexée par le crawler du moteur de recherche. Il peut y avoir plusieurs raisons à cela.

D’une part, un webmaster peut empêcher l’in­dexa­tion du contenu en utilisant la commande nofollow. D’autre part, il est possible qu’une page soit cachée dans un site afin que le robot ne puisse pas la trouver. Pour chaque site Web, le robot dispose pour ainsi dire d’un « budget de pages » limité. Si ce budget est épuisé alors qu’il reste des pages de niveau inférieur, celles-ci sont ignorées. Une troisième pos­si­bi­lité concerne des con­di­tions tech­niques non remplies pour l’in­dexa­tion, par exemple l’emploi de Flash.

Ce que le contenu du Deep Web signifie pour votre site web

Nor­ma­le­ment, le contenu du Deep Web sur votre site ne pose aucun problème, ni pour vous, ni pour les visiteurs. Au contraire même : on trouve ce genre de pages sur quasiment tous les grands sites et dans les boutiques en ligne, et les uti­li­sa­teurs n’ont qu’à s’iden­ti­fier pour y accéder.

La seule con­sé­quence négative d’une non-in­dexa­tion par Google concerne l’op­ti­mi­sa­tion du ré­fé­ren­ce­ment sur les moteurs de recherche. En effet, il n’est pas rare que le contenu pertinent se cache derrière une res­tric­tion d’accès, notamment dans les domaines scien­ti­fiques et médicaux. Votre objectif devrait être de faire en sorte qu’un maximum de contenu soit librement ac­ces­sible et indexable (dans la mesure où la loi et la politique de l’en­tre­prise le per­met­tent), ou tout du moins de concevoir des pages de renvoi qui donnent aux moteurs de recherche une idée de ce qu’il y a (encore) à trouver sur votre site.

Aller au menu principal