Les moteurs de recherche tels que Google utilisent depuis longtemps des robots d’in­dexa­tion explorant Internet à la recherche de termes définis par l’uti­li­sa­teur. Les robots d’in­dexa­tion sont des robots par­ti­cu­liers visitant suc­ces­si­ve­ment les sites Internet afin de créer des as­so­cia­tions avec des mots-clés et de les ca­té­go­ri­ser. Le premier robot d’in­dexa­tion a fait son ap­pa­ri­tion en 1993 avec l’in­tro­duc­tion du premier moteur de recherche Jumps­ta­tion.

Le Web scraping ou Web har­ves­ting est une technique d’in­dexa­tion. Nous vous ex­pli­quons comment cela fonc­tionne, dans quel but elle est utilisée et comment la bloquer le cas échéant.

Web scraping : dé­fi­ni­tion

Le Web scraping (de l’anglais scraping = « gratter/racler ») consiste à extraire des données de sites Internet et à les en­re­gis­trer afin de les analyser ou de les utiliser de toute autre façon. Le scraping permet de collecter des in­for­ma­tions de nature bien dif­fé­rente. Il peut par ex. s’agir de coor­don­nées comme des adresses e-mail ou des numéros de téléphone, mais aussi de mots-clés in­di­vi­duels ou d’URL. Ces in­for­ma­tions sont alors ras­sem­blées dans des bases de données locales ou des tableaux.

Dé­fi­ni­tion

Le Web scraping sé­lec­tionne des textes sur les sites Internet afin d’obtenir des in­for­ma­tions et de les en­re­gis­trer. Ce processus est com­pa­rable à un copier-coller au­to­ma­tique. Pour la recherche d’images, la dé­no­mi­na­tion du processus est encore plus précise et s’intitule image scraping.

Comment fonc­tionne le Web scraping ?

Le scraping comprend dif­fé­rentes fonc­tion­na­li­tés, mais on opère gé­né­ra­le­ment une dis­tinc­tion entre le scraping manuel et au­to­ma­tique. Le scraping manuel désigne le fait de copier et insérer ma­nuel­le­ment des in­for­ma­tions et des données. On peut le comparer avec le fait de découper et ras­sem­bler des articles de journaux. Le scraping manuel est uni­que­ment effectué lorsque l’on souhaite trouver et en­re­gis­trer des in­for­ma­tions de façon spo­ra­dique. Il s’agit d’un processus très laborieux qui est rarement appliqué pour de grandes quantités de données.

Dans le cas du scraping au­to­ma­tique, on utilise un logiciel ou un al­go­rithme qui explore plusieurs sites Internet afin d’extraire des in­for­ma­tions. Un logiciel spé­ci­fique est utilisé en fonction de la nature du site Internet et du contenu. Dans le scraping au­to­ma­tique, on distingue dif­fé­rentes méthodes :

  • Les ana­ly­seurs syn­taxiques : un analyseur syn­taxique est utilisé pour convertir le texte en une nouvelle structure. Dans le cas de l’analyse d'un HTML par exemple, le logiciel lit le document HTML et en­re­gistre les in­for­ma­tions. L’analyse d’un DOM utilise l’affichage des contenus dans le na­vi­ga­teur côté client pour extraire les données.
  • Les robots : un robot est un logiciel réalisant des tâches spé­ci­fiques et les au­to­ma­ti­sant. Dans le Web har­ves­ting, les robots sont utilisés pour explorer au­to­ma­ti­que­ment des sites Internet et collecter des données.
  • Le texte : les personnes sachant utiliser la Command Line peuvent utiliser les ins­truc­tions Unix grep pour explorer le Web à la recherche de certains termes dans Python ou Perl. Il s’agit d’une méthode très simple pour obtenir des données qui requiert toutefois davantage de travail que lorsqu’on utilise un logiciel.
Note

Nous vous ex­pli­quons à quoi faire attention lorsque vous réalisez du Web scraping avec Python dans le tutoriel cor­res­pon­dant. Le pilote Web Selenium peut être fa­ci­le­ment intégré pour collecter des données.

Dans quel cas le Web scraping est-il utilisé ?

Le Web scraping est utilisé pour une multitude de tâches. Il permet par ex. de récolter ra­pi­de­ment des données de contact ou des in­for­ma­tions spé­ci­fiques. Dans le domaine pro­fes­sion­nel, le Web scraping est souvent utilisé pour accéder à des avantages par rapport à des con­cur­rents. Le har­ves­ting de données permet à une société de consulter tous les produits d’un con­cur­rent et de les comparer avec ses propres produits. Le Web scraping apporte également une valeur ajoutée pour les données fi­nan­cières : les in­for­ma­tions sont lues depuis un site Internet externe, trans­fé­rées dans un tableau et peuvent ensuite être analysées et traitées.

Google constitue un bon exemple de Web scraping. Le moteur de recherche utilise cette tech­no­lo­gie afin d’afficher des in­for­ma­tions mé­téo­ro­lo­giques ou des com­pa­ra­tifs de prix pour des hôtels et des vols. Parmi les com­pa­ra­teurs de prix, nombreux sont ceux à également utiliser le Web scraping afin d’afficher des in­for­ma­tions de nombreux sites Internet et pres­ta­taires.

Le Web scraping est-il légal ?

Le scraping n’est pas toujours légal et les « scrapers » doivent tout d’abord respecter les droits d’auteur des sites Internet. Pour certaines boutiques en ligne et pres­ta­taires, le Web scraping a des con­sé­quences très négatives, par ex. lorsque le clas­se­ment d’une page est affecté par des agré­ga­teurs. Aussi n’est-il pas rare de voir une en­tre­prise pour­suivre en justice un com­pa­ra­teur afin de mettre un terme au Web scraping. Une affaire de ce type a été présentée à la Cour d’appel de Francfort en 2009, qui a toutefois statué qu’une compagnie aérienne devait permettre aux com­pa­ra­teurs de réaliser du Web scraping car leurs in­for­ma­tions étaient librement ac­ces­sibles. La compagnie aérienne a néanmoins la pos­si­bi­lité d’installer des mesures tech­niques pour empêcher le scraping.

Le scraping est donc légal lorsque les données extraites sont librement ac­ces­sibles par des tiers sur le Web. Pour vous assurer d’être dans votre bon droit en faisant du Web scraping, respectez les règles suivantes :

  • Consultez et respectez les droits d’auteur. Lorsque les données sont protégées par des droits d’auteur, elles ne peuvent pas être publiées à un autre endroit.
  • Les ex­ploi­tants de site Internet sont en droit d’installer des processus tech­niques empêchant le Web scraping. En aucun cas, ces processus ne doivent être con­tour­nés.
  • Lorsque l’uti­li­sa­tion des données est liée à une connexion uti­li­sa­teur ou à un contrat d’uti­li­sa­tion, ces données ne doivent pas faire l’objet d’un Web scraping.
  • Le fait de masquer de la publicité, des con­di­tions générales d’uti­li­sa­tion ou des clauses de non-res­pon­sa­bi­lité avec une tech­no­lo­gie de scraping est interdit.

Même si le scraping est autorisé dans de nombreux cas, il peut être utilisé de façon abusive à des fins des­truc­trices, voire illégales. Cette tech­no­lo­gie est par exemple souvent utilisée pour envoyer des spams. Grâce à elle, les « spammers » peuvent par ex. collecter des adresses e-mail et envoyer des messages spam à ces des­ti­na­taires.

Comment bloquer le Web scraping ?

Afin de bloquer le scraping, les ex­ploi­tants de sites Internet peuvent prendre dif­fé­rentes mesures. Le fichier robots.txt est par exemple utilisé pour bloquer les robots des moteurs de recherche. Par con­sé­quent, ils empêchent également le scraping au­to­ma­tique effectué par les robots logiciels. Les adresses IP des robots peuvent également être bloquées. Il est possible de masquer les coor­don­nées et les in­for­ma­tions per­son­nelles de façon ciblée. D'autre part, vous pouvez ren­seig­ner les données sensibles telles que les numéros de téléphone sous forme d’image ou de CSS ce qui complique le scraping de données. Par ailleurs, il existe de nombreux pres­ta­taires payants four­nis­sant des services anti-robot pouvant mettre en place un pare-feu. Les Google Search Console per­met­tent également de mettre en place des no­ti­fi­ca­tions informant les ex­ploi­tants de sites Internet lorsque leurs données font l’objet d’un Web scraping.

Veuillez prendre con­nais­sance des mentions légales en vigueur sur cet article.

Aller au menu principal