Qu’est-ce que le Web scraping ?

L'équipe éditoriale IONOS10/09/20207 mins

Sommaire

Les moteurs de recherche tels que Google utilisent depuis longtemps des robots d’indexation explorant Internet à la recherche de termes définis par l’utilisateur. Les robots d’indexation sont des robots particuliers visitant successivement les sites Internet afin de créer des associations avec des mots-clés et de les catégoriser. Le premier robot d’indexation a fait son apparition en 1993 avec l’introduction du premier moteur de recherche Jumpstation.

Le Web scraping ou Web harvesting est une technique d’indexation. Nous vous expliquons comment cela fonctionne, dans quel but elle est utilisée et comment la bloquer le cas échéant.

Web scraping : définition

Le Web scraping (de l’anglais scraping = « gratter/racler ») consiste à extraire des données de sites Internet et à les enregistrer afin de les analyser ou de les utiliser de toute autre façon. Le scraping permet de collecter des informations de nature bien différente. Il peut par ex. s’agir de coordonnées comme des adresses e-mail ou des numéros de téléphone, mais aussi de mots-clés individuels ou d’URL. Ces informations sont alors rassemblées dans des bases de données locales ou des tableaux.

Définition

Le Web scraping sélectionne des textes sur les sites Internet afin d’obtenir des informations et de les enregistrer. Ce processus est comparable à un copier-coller automatique. Pour la recherche d’images, la dénomination du processus est encore plus précise et s’intitule image scraping.

Comment fonctionne le Web scraping ?

Le scraping comprend différentes fonctionnalités, mais on opère généralement une distinction entre le scraping manuel et automatique. Le scraping manuel désigne le fait de copier et insérer manuellement des informations et des données. On peut le comparer avec le fait de découper et rassembler des articles de journaux. Le scraping manuel est uniquement effectué lorsque l’on souhaite trouver et enregistrer des informations de façon sporadique. Il s’agit d’un processus très laborieux qui est rarement appliqué pour de grandes quantités de données.

Dans le cas du scraping automatique, on utilise un logiciel ou un algorithme qui explore plusieurs sites Internet afin d’extraire des informations. Un logiciel spécifique est utilisé en fonction de la nature du site Internet et du contenu. Dans le scraping automatique, on distingue différentes méthodes :

Les analyseurs syntaxiques : un analyseur syntaxique est utilisé pour convertir le texte en une nouvelle structure. Dans le cas de l’analyse d'un HTML par exemple, le logiciel lit le document HTML et enregistre les informations. L’analyse d’un DOM utilise l’affichage des contenus dans le navigateur côté client pour extraire les données.
Les robots : un robot est un logiciel réalisant des tâches spécifiques et les automatisant. Dans le Web harvesting, les robots sont utilisés pour explorer automatiquement des sites Internet et collecter des données.
Le texte : les personnes sachant utiliser la Command Line peuvent utiliser les instructions Unix grep pour explorer le Web à la recherche de certains termes dans Python ou Perl. Il s’agit d’une méthode très simple pour obtenir des données qui requiert toutefois davantage de travail que lorsqu’on utilise un logiciel.

Note

Nous vous expliquons à quoi faire attention lorsque vous réalisez du Web scraping avec Python dans le tutoriel correspondant. Le pilote Web Selenium peut être facilement intégré pour collecter des données.

Dans quel cas le Web scraping est-il utilisé ?

Le Web scraping est utilisé pour une multitude de tâches. Il permet par ex. de récolter rapidement des données de contact ou des informations spécifiques. Dans le domaine professionnel, le Web scraping est souvent utilisé pour accéder à des avantages par rapport à des concurrents. Le harvesting de données permet à une société de consulter tous les produits d’un concurrent et de les comparer avec ses propres produits. Le Web scraping apporte également une valeur ajoutée pour les données financières : les informations sont lues depuis un site Internet externe, transférées dans un tableau et peuvent ensuite être analysées et traitées.

Google constitue un bon exemple de Web scraping. Le moteur de recherche utilise cette technologie afin d’afficher des informations météorologiques ou des comparatifs de prix pour des hôtels et des vols. Parmi les comparateurs de prix, nombreux sont ceux à également utiliser le Web scraping afin d’afficher des informations de nombreux sites Internet et prestataires.

Le Web scraping est-il légal ?

Le scraping n’est pas toujours légal et les « scrapers » doivent tout d’abord respecter les droits d’auteur des sites Internet. Pour certaines boutiques en ligne et prestataires, le Web scraping a des conséquences très négatives, par ex. lorsque le classement d’une page est affecté par des agrégateurs. Aussi n’est-il pas rare de voir une entreprise poursuivre en justice un comparateur afin de mettre un terme au Web scraping. Une affaire de ce type a été présentée à la Cour d’appel de Francfort en 2009, qui a toutefois statué qu’une compagnie aérienne devait permettre aux comparateurs de réaliser du Web scraping car leurs informations étaient librement accessibles. La compagnie aérienne a néanmoins la possibilité d’installer des mesures techniques pour empêcher le scraping.

Le scraping est donc légal lorsque les données extraites sont librement accessibles par des tiers sur le Web. Pour vous assurer d’être dans votre bon droit en faisant du Web scraping, respectez les règles suivantes :

Consultez et respectez les droits d’auteur. Lorsque les données sont protégées par des droits d’auteur, elles ne peuvent pas être publiées à un autre endroit.
Les exploitants de site Internet sont en droit d’installer des processus techniques empêchant le Web scraping. En aucun cas, ces processus ne doivent être contournés.
Lorsque l’utilisation des données est liée à une connexion utilisateur ou à un contrat d’utilisation, ces données ne doivent pas faire l’objet d’un Web scraping.
Le fait de masquer de la publicité, des conditions générales d’utilisation ou des clauses de non-responsabilité avec une technologie de scraping est interdit.

Même si le scraping est autorisé dans de nombreux cas, il peut être utilisé de façon abusive à des fins destructrices, voire illégales. Cette technologie est par exemple souvent utilisée pour envoyer des spams. Grâce à elle, les « spammers » peuvent par ex. collecter des adresses e-mail et envoyer des messages spam à ces destinataires.

Comment bloquer le Web scraping ?

Afin de bloquer le scraping, les exploitants de sites Internet peuvent prendre différentes mesures. Le fichier robots.txt est par exemple utilisé pour bloquer les robots des moteurs de recherche. Par conséquent, ils empêchent également le scraping automatique effectué par les robots logiciels. Les adresses IP des robots peuvent également être bloquées. Il est possible de masquer les coordonnées et les informations personnelles de façon ciblée. D'autre part, vous pouvez renseigner les données sensibles telles que les numéros de téléphone sous forme d’image ou de CSS ce qui complique le scraping de données. Par ailleurs, il existe de nombreux prestataires payants fournissant des services anti-robot pouvant mettre en place un pare-feu. Les Google Search Console permettent également de mettre en place des notifications informant les exploitants de sites Internet lorsque leurs données font l’objet d’un Web scraping.

Veuillez prendre connaissance des mentions légales en vigueur sur cet article.

Cet article vous a-t-il été utile ?

Articles Populaires

Nom de domaine mail : qu’est-ce que c’est et comment en créer un

Dans cet article dédié, nous vous présentons comment créer une adresse mail avec son…

Comment acheter un nom de domaine ?

Comment enregistrer un nom de domaine avec le domaine de premier et de deuxième niveau que…

Quels types de domaines existe-t-il ?

Quelle est la différence entre un domaine de premier et de deuxième niveau ? Qu’est-ce…

Le Prompt Engineering : explication

Qu’est-ce que le Prompt Engineering ? Comment peut-il améliorer les résultats de ChatGPT…

Aperçu de 7 types de sites Internet : quel site Web correspond à vos besoins ?

Le choix d’un bon type de site Internet est essentiel à la réussite de tout projet en…

Tutorial PHP : comment apprendre PHP pour débutants

Avec une part de marché de plus de 80%, PHP constitue un langage de script de choix pour de nombreux programmeurs lorsqu'il s'agit de créer du contenu Web dynamique. Que l’on gère un blog, un forum Internet ou une boutique en ligne, le logiciel sous-jacent est souvent basé sur…

PHP
Tutoriels

REDPIXEL.PLShutterstock

Preparedstatement : principes et exemples

Pour améliorer les performances des requêtes SQL répétitives et en même temps réduire considérablement le risque de manipulation lors de l'accès à la base de données, vous pouvez utiliser des requêtes préparées dans de nombreux langages tels que PHP. Que sont exactement ces…

PHP
Tutoriels
SQL

REDPIXEL.PLShutterstock

Web scraping avec Python : introduction et tutoriel

Le web scraping permet d’extraire des informations de sites Internet de façon automatisée. Pour y parvenir, on utilise volontiers le langage Python. Dans cet article, vous découvrirez en quoi Python est un outil adapté au web scraping, quels sont les risques juridiques et les…

Python

Google Sheets : utiliser la fonction importXML pour le Web scraping

Google Sheets propose des fonctions pour lire les données structurées des sites Internet directement dans un tableur. L’une d’entre elles est importXML(). Dans Google Sheets, cette fonction vous permet de créer des listes de lien claires, d’extraire des textes de sites Internet…

Google
Tutoriels