Il est souvent né­ces­saire de retrouver d’anciennes versions de sites Web ou de restaurer des pages Internet sup­pri­mées. Des outils comme la Wayback Machine, le cache Google ou WebCite per­met­tent d’accéder à des archives de sites Web, de re­cons­ti­tuer d’anciennes versions d’un site Internet ou de consulter une ancienne page d’accueil en quelques clics.

Créer un site Internet
Votre site en un éclair grâce à l'in­tel­li­gence ar­ti­fi­cielle
  • Éditeur de site intuitif avec fonctions d'IA
  • Gé­né­ra­teur d'images et de textes avec op­ti­mi­sa­tion SEO
  • Domaine, SSL et boîte email inclus

Pourquoi consulter d’anciennes pages Internet ?

  • Pages hors ligne : des problèmes tech­niques ou la ré­si­lia­tion d’un service d’hé­ber­ge­ment peuvent rendre un site inac­ces­sible. Les archives de sites Web per­met­tent alors de conserver et de consulter ces contenus, même lorsque le site original n’existe plus.
  • Recherche et vé­ri­fi­ca­tion des sources : jour­na­listes, blogueurs et cher­cheurs peuvent consulter d’anciennes versions de sites Web pour vérifier des in­for­ma­tions ou citer des sources avec précision.
  • Objectifs SEO : les contenus archivés fa­ci­li­tent l’analyse des anciens liens, la do­cu­men­ta­tion des mo­di­fi­ca­tions et l’ex­ploi­ta­tion du potentiel des anciens domaines.
  • Garanties légales : les captures d’écran et les contenus archivés peuvent servir de preuve en cas d’insultes, de menaces ou de litiges ju­ri­diques, notamment dans le cadre pro­fes­sion­nel.

Projet d’archive de sites Web

L’Internet Archive est un projet à but non lucratif fondé par Brewster Kahle, qui préserve des contenus nu­mé­riques depuis 1996. Au cœur de ce projet se trouve la Wayback Machine, un outil per­met­tant d’accéder à d’anciennes versions de sites Web et de consulter des captures d’écran his­to­riques, des textes, des images ou encore des vidéos. Les premiers sites archivés datent de 1996, et la Wayback Machine contient aujourd’hui des centaines de milliards de pages sau­ve­gar­dées. Grâce à elle, il est possible de retrouver et de restaurer d’anciennes pages Internet.

Outre les sites Web, l’Internet Archive conserve également :

  • des textes et des livres
  • des en­re­gis­tre­ments audio, y compris des concerts en direct
  • des vidéos et des émissions té­lé­vi­sées
  • des images
  • des logiciels

Les contenus pro­vien­nent du domaine public ou sont mis à dis­po­si­tion par leurs ti­tu­laires de droits. Une grande partie des archives provient d’uni­ver­si­tés, d’or­ga­ni­sa­tions publiques ou de projets de nu­mé­ri­sa­tion tels que Project Gutenberg et LibriVox.

Tutoriel Wayback Machine : trouver et archiver d’anciennes versions de sites Web

Si certains contenus de votre site Web ont disparu ou si vous souhaitez consulter une version an­té­rieure d’une page, la Wayback Machine est l’outil idéal. En quelques étapes simples, vous pouvez retrouver d’anciennes versions de sites Web, accéder à des pages Internet archivées et même sau­ve­gar­der vos propres contenus.

Étape 1 : entrer l’URL du site recherché

Saisissez le domaine souhaité dans la barre de recherche en haut de la page, puis appuyez sur Entrée pour afficher di­rec­te­ment les résultats dis­po­nibles. La vue ca­len­drier s’affiche alors si des archives existent.

Image: Fonction de la barre de recherche de la Wayback Machine
Saisissez sim­ple­ment l’URL du site Web que vous souhaitez consulter dans la barre de recherche.

Étape 2 : accéder à la page prin­ci­pale de la Wayback Machine

Cliquez sur le logo pour revenir à la page d’accueil de la Wayback Machine. Vous pouvez y entrer une URL et sé­lec­tion­ner « Browse History » afin d’afficher les versions archivées du site.

Image: Archive de la Wayback Machine
Vous parcourez main­te­nant l’archive de la Wayback Machine.

Étape 3 : re­cher­cher par mots-clés

Saisissez un mot-clé dans la barre de recherche in­fé­rieure, puis sé­lec­tion­nez « Search archived web sites ». Cliquez sur « Go » pour afficher la liste des résultats, com­pre­nant le domaine, une des­crip­tion, les ins­tan­ta­nés dis­po­nibles et les en­re­gis­tre­ments médias associés.

Image: Recherche par mots-clés
La recherche par mots-clés renvoie des res­sources archivées (pas toujours une page précise).
Remarque

Un ins­tan­tané cor­res­pond à une version archivée d’une page, comme une sorte de capture d’écran. Les éléments dy­na­miques (for­mu­laires, scripts) peuvent ne pas fonc­tion­ner.

Étape 4 : utiliser la chro­no­lo­gie et les ins­tan­ta­nés

Pour chaque URL archivée, la Wayback Machine affiche une chro­no­lo­gie indiquant le nombre d’ins­tan­ta­nés en­re­gis­trés par date. Dans la vue ca­len­drier, ces ins­tan­ta­nés sont re­pré­sen­tés par des couleurs dis­tinctes ; les codes couleurs peuvent évoluer, référez-vous donc également à la légende de l’interface.

  • Bleu : crawl réussi
  • Vert : re­di­rec­tion
  • Orange : URL in­trou­vable (erreur 4xx)
  • Rouge : erreur serveur (erreur 5xx)

Comment utiliser la chro­no­lo­gie ?

  1. Cliquez sur une date colorée dans le ca­len­drier.
  2. Sé­lec­tion­nez l’ho­ro­da­tage souhaité pour afficher la capture d’écran de l’archive du site Internet.
  3. Naviguez sur la page comme sur le site d’origine et copiez le contenu si né­ces­saire.
Image: Représentation des captures de page de gutenberg.org
Les cercles verts et oranges indiquent que les crawlers ont en­re­gis­tré une re­di­rec­tion ou n’ont pas trouvé l’URL lors d’au moins une tentative, sans que cela s’applique à toutes les captures de ce jour-là.

Étape 5 : archiver son propre site Web (auto-capture)

Tous les sites Web ne sont pas archivés au­to­ma­ti­que­ment. Les raisons les plus fré­quentes sont :

  • la présence d’une balise noindex ou d’une entrée cor­res­pon­dante dans le fichier robots.txt, qui empêche l’in­dexa­tion
  • des contenus protégés par mot de passe
  • une sup­pres­sion manuelle d’une page archivée
  • des contenus dy­na­miques non pris en charge ou mal en­re­gis­trés

Comment sau­ve­gar­der votre site Web ?

  1. Rendez-vous sur la page prin­ci­pale de la Wayback Machine.
  2. Utilisez le champ « Save Page Now » et saisissez votre domaine.
Image: Enregistrer votre propre site Web
Entrez votre domaine ici pour en­re­gis­trer le site.
  1. Après quelques instants, la Wayback Machine crée un ins­tan­tané qui est ensuite archivé de manière per­ma­nente. Vous pourrez ainsi retrouver d’anciennes versions de votre site Web, même si la version en ligne n’est plus dis­po­nible.
Conseil

Un ins­tan­tané (ou snapshot) cor­res­pond à une version archivée d’une page, com­pa­rable à une capture d’écran. Les éléments dy­na­miques (for­mu­laires, scripts) peuvent ne pas fonc­tion­ner.

Comment té­lé­char­ger d’anciennes versions d’un site Web ?

Pour des besoins plus avancés, tels que l’analyse du code source, la ré­cu­pé­ra­tion de liens ou les tests SEO, plusieurs outils spé­cia­li­sés peuvent être utilisés :

  • Wayback-Machine-Down­loa­der (GitHub, Open Source) : té­lé­charge des fichiers HTML, des médias et des pages d’index à partir de la Wayback Machine.
  • Ar­chi­va­rix (en ligne) : gratuit pour les sites contenant jusqu’à 200 fichiers, avec té­lé­char­ge­ment au format ZIP après ins­crip­tion.
  • HTTrack Website Copier : outil classique per­met­tant de copier des sites Web complets, y compris les archives de sites Web, en ren­seig­nant les URL Wayback.

Archive.org ne propose pas d’outil officiel de té­lé­char­ge­ment de sites complets, mais il est possible d’y té­lé­char­ger des textes, images ou fichiers audio lorsque les droits le per­met­tent.

Al­ter­na­tive 1 : retrouver des sites Web récents grâce à la recherche Google

Si les in­for­ma­tions re­cher­chées sont encore re­la­ti­ve­ment récentes, une simple recherche Google peut suffire. Les crawlers de Google en­re­gistrent, eux aussi, des ins­tan­ta­nés en cache, si­mi­laires à ceux de la Wayback Machine. Ces caches affichent la version la plus récemment indexée d’une page. Si la page d’origine est tem­po­rai­re­ment inac­ces­sible, le cache reste con­sul­table. Par rapport à archive.org, ces copies sont souvent plus récentes, mais elles ne con­ser­vent qu’un seul ho­ro­da­tage par page.

Pour accéder à une version mise en cache, entrez la commande suivante dans la barre d’adresse de votre na­vi­ga­teur (remplacez URL par l’URL souhaitée) :

https://webcache.googleusercontent.com/search?q=cache:URL

Notez que les caches Google n’affichent gé­né­ra­le­ment pas les éléments dy­na­miques ni les contenus mul­ti­mé­dias. De plus, il est important de savoir que, même si une page est définie avec l’attribut noindex et n’apparaît plus dans les résultats de recherche, il est parfois possible d’y accéder tem­po­rai­re­ment via le cache.

Al­ter­na­tive 2 : consulter et citer des sites Web archivés avec WebCite

WebCite permet d’accéder à des sites Web déjà archivés et de les citer comme sources fiables. Toutefois, le service n’accepte plus de nouvelles demandes d’archivage. Les ins­tan­ta­nés existants restent ac­ces­sibles et peuvent toujours être utilisés comme ré­fé­rences. Vous pouvez ainsi retrouver d’anciennes versions de sites Web et consulter d’anciennes pages Internet.

Pour afficher une version archivée d’un site, rendez-vous sur le site Web de WebCite et utilisez la fonction de recherche pour saisir le domaine ou l’ID du snapshot. Vous pourrez alors consulter des anciennes versions de sites Web déjà archivées et les citer de manière per­ma­nente et inal­té­rable.

Image: Fonction de recherche de WebCite
Indiquez dans le champ de recherche l’URL du domaine que vous re­cher­chez.
Aller au menu principal