Google Sheets : utiliser la fonction importXML pour le Web scraping

L'équipe éditoriale IONOS07/04/2021

Sommaire

L’une des principales qualités de Google Sheets est sa capacité à pouvoir importer directement des contenus de sites Internet : la fonction importXML() de Google Sheets lit les contenus structurés du site Internet et les transfère dans le tableau souhaité du tableur de Google.

Remarque

Les deux tableurs Google Sheets et Excel présentent de nombreuses similitudes, mais ils se distinguent par plusieurs points essentiels comme le montre notre comparatif d’Excel et de Google Sheets.

Cette importation « XML to Google Sheets » est particulièrement pratique lorsque l’on souhaite générer des tableaux à partir de données disponibles en ligne. Dans cet article, vous découvrirez comment mettre à profit cette possibilité. Par ailleurs, nous vous donnons quelques suggestions pour utiliser cette fonction utile de Google Sheets de façon pertinente.

Google Sheets : brève explication de la fonction importXML()

La fonction importXML() lit les données structurées de projets Web et les insère dans les cellules d’une feuille de calcul de Google Sheets.

Pour utiliser cette fonction, la formule suivante doit être saisie dans le logiciel de Google :

=importXML(URL, XPath)

importXML() de Google Sheets dispose de deux paramètres seulement :

URL : l’adresse Web à partir de laquelle vous souhaitez obtenir des données. Le plus simple est de la copier directement depuis la barre d’adresse du navigateur.
XPath : le chemin qui indique à quel endroit de la page se trouvent les données que vous souhaitez importer.

Conseil

Vous trouverez des informations détaillées sur XPath dans notre tutoriel XPath.

Si vous saisissez directement les paramètres dans la fonction, vous devez les placer entre des guillemets. Le plus simple est d’écrire les deux paramètres (sans guillemets) dans deux cellules de tableaux et d’y faire référence dans la formule de la fonction. Vous pourrez ainsi faire l’économie des guillemets.

Google Workspace (anciennement G Suite)

Facilitez le travail en équipe

Tous les outils Google au même endroit
Messagerie professionnelle via Gmail
Utiliser Gmail avec votre domaine chez IONOS

Possibilités d’utilisation de la fonction « XML to Google Sheets »

La fonction importXML() peut être utilisée de façon polyvalente. Les quatre possibilités d’application suivantes sont particulièrement intéressantes :

la création de listes de liens,
l’analyse de données de page Web structurées,
l’extraction de contenu de texte,
la reprise de tableaux HTML.

Dans les sections suivantes, nous vous expliquons comment utiliser concrètement la fonction importXML dans Google Sheets à travers ces quatre possibilités d’application.

Créer des listes de liens

Pour une raison ou une autre, on peut avoir besoin de présenter clairement des adresses de sites Internet intéressants dans une liste comportant l’URL, le nom du site Web et une description éloquente. Le site Internet Nodesign fournit une bonne base pour ce cas d’application : cette collection de liens présente des outils graphiques pour les développeurs ayant peu ou pas de formation en design. Les liens apparaissent dans des cadres contenant une image, un titre et une description rapide. À l’heure actuelle, cette collection comporte plus de 140 entrées.

Le site Internet nodesign.dev présente chaque lien dans un cadre contenant à chaque fois l’URL (lien), un titre, une description et une image.

À partir de ce site, nous souhaitons utiliser la fonction importXML() dans Google Sheets pour créer une liste de liens et procédons comme suit :

Déterminer les contenus dans le code source de la page Web

Dans ce cas, nous avons besoin de l’URL, du texte d’ancrage (c’est-à-dire du libellé du lien) et de la description. Pour ce faire, nous consultons l’outil développeur de notre navigateur (touche F12 ou clic droit et « Inspecter ») puis nous sélectionnons le premier cadre. Sous la balise <h5>, ce cadre contient les données souhaitées : l’URL (1), le texte d’ancrage du lien (2) ainsi que la description (3).

Le premier cadre nous permet de trouver sans problème l’URL, le titre du cadre (Card Title) et la description (Card Text).

Définir le XPath

La deuxième étape consiste à définir le chemin (XPath) pour ces trois informations :

URL : l’URL est un attribut de la balise <a> qui se trouve sous la balise <h5>. Par conséquent, son XPath est :

//h5/a/@href

Texte d’ancrage : le texte d’ancrage est le contenu de la balise <a> définie ci-dessus : //h5/a. Nous reprenons le XPath précédent en abandonnant l’attribut @href.

Description : cet XPath est un peu plus délicat puisqu’il ne se trouve pas au même niveau hiérarchique que la balise <a>. Si nous prenons simplement le paragraphe <p> comme XPath, les textes ne correspondront plus à l’URL. Par conséquent, nous définissons le paragraphe qui contient la description comme l’élément qui suit la balise <h5> au même niveau hiérarchique :

//h5/following-sibling::p

Utiliser la fonction dans le tableau Google

À présent, nous écrivons pour chacune de ces trois indications une instruction importXML() dans une colonne du tableau. Cette opération ne doit être réalisée que sur la première ligne ; le programme remplit automatiquement les autres lignes. La formule à proprement parler est alors écrasée par le contenu.

Pour garder une vue d’ensemble, nous ajoutons une ligne vide en haut et nous y saisissons à nouveau la fonction à titre informatif. Nous ajoutons cette fois-ci une apostrophe au début pour que la formule ne soit pas exécutée et soit traitée comme du texte simple.

Après avoir saisi la fonction importXML dans la deuxième ligne, le programme charge l’intégralité de la liste dans la colonne. La ligne supérieure a ici uniquement pour but d’informer sur la formule utilisée.

Vous pouvez alors éditer ce tableau de la façon habituelle ; dans ce cas, les différentes cellules contiendront les données actualisées et non la formule.

Excel avec Microsoft 365 pour les entreprises et IONOS !

La solution Office que vous connaissez, encore mieux

Boîte email Exchange jusqu’à 50 Go
Dernières versions de vos applications Office préférées
Assistance gratuite pour l’installation

Analyse de données structurées d’une page Web

La liste de liens que nous venons de générer peut à présent être analysée de diverses manières si nécessaire. On pourrait par exemple également lister le méta-titre, la méta-description, la langue et le codage pour chaque URL trouvée, ces informations ayant une utilité à des fins de SEO.

Nous reprenons la liste de liens obtenue lors de la première tâche et nous la complétons avec des informations sur le titre, la méta-description, la langue et le codage des caractères.

Pour ce faire, nous saisissons les informations XPath dans la ligne supérieure et construisons la fonction dans la deuxième ligne (exemple : deuxième colonne) :

=importXML($A2,B$1)

La formule reprend l’URL de la première colonne et le XPath de la ligne supérieure. Pour pouvoir étendre la formule vers le bas et la droite, nous utilisons la première colonne et la première ligne comme références absolues (symbole $).

Note

Les entrées #NV indiquent que les informations recherchées sur la page Web n’ont pas été trouvées.

Pour déconnecter le tableau des sites Internet mis en lien, nous pouvons les sélectionner, les copier et les insérer dans une nouvelle feuille de calcul en appuyant sur [Maj] + [Ctrl] + [V].

Extraction de contenu de texte

Grâce aux progrès réalisés en reconnaissance de caractères par l’intelligence artificielle, également connue sous le nom de Natural Language Processing, les besoins en extraction de grandes quantités de texte à des fins d’analyse de sites Internet vont grandissants.

Les journaux quotidiens, les agrégateurs d’actualités et les sites de synthèse de la presse en sont un bon exemple : ils fournissent des informations précieuses pour analyser les tendances.

Pour les besoins de notre démonstration, nous avons choisi le site de synthèse de la presse newstral.com. Nous souhaitons simplement extraire une liste de l’ensemble des communiqués de presse (titres). Pour cela, nous procédons comme suit :

Déterminer les contenus dans le code source de la page Web

Dans l’outil développeur (touche fonction F12 ou clic droit et « Inspecter »), nous sélectionnons un gros titre et observons comment il est structuré. Dans ce cas, la structure est très simple : le gros titre est le texte d’ancrage du lien (ligne inférieure) :

Capture d’écran du code source de newstral.com

Définir le XPath

Pour que seuls les titres soient repris et non l’ensemble des liens de la page, nous devons toutefois définir plus précisément le Xpath : il convient de trouver uniquement les balises <a> de la classe « headline », et uniquement celles qui se trouvent à l’intérieur du paragraphe de la classe « headlines-container ».

//div[@class="headlines-container"]/ul/li/span/a[@class="headline"]

Utiliser la fonction dans le tableau Google

Nous saisissons l’URL et le Xpath dans la colonne à l’extrémité gauche d’une feuille de calcul Google vide. De là, nous pouvons facilement aller les chercher pour écrire la fonction :

(cellule B1) =importXML(A1,A2)
(cellule B2) =importXML(A1,A3)

Nous obtenons alors une liste des gros titres. Cerise sur le gâteau, nous pouvons actualiser cette liste à tout moment avec F5 de façon à toujours afficher les contenus les plus récents.

La première colonne contient les paramètres de la fonction. La fonction importXML est uniquement saisie dans la première ligne des deuxième et troisième colonnes. Le programme remplit automatiquement les colonnes vers le bas.

Conseil

Vous souhaitez d’autres astuces pour Google Sheets ? Pour cela, découvrez comment créer des listes déroulantes dans Google Sheets.

Reprendre des tableaux HTML

Pour transférer un tableau d’un site Internet dans Google Sheets, il vous suffit d’une simple formule. Prenons par exemple le tableau d’un article de Wikipedia sur les modèles Samsung Galaxy : pour importer ce tableau, nous avons simplement besoin de la balise <table> dans le XPath. Toutefois, nous devons encore déterminer combien de balises <table> précèdent notre tableau. Le tableau que nous recherchons est le troisième de ce site Internet. La formule correspondante est donc :

=importXML(„https://fr.wikipedia.org/wiki/Samsung_Galaxy“, „//table[3]/tbody/*“)

Il suffit de saisir une simple commande importXML dans la cellule B1 pour lire l’intégralité du tableau. Les paramètres (URL et XPath) sont une nouvelle fois présents dans la première colonne et servent de référence pour la formule.

Et voilà ! Il a suffi d’une simple formule dans la cellule B1 pour transposer correctement l’intégralité du tableau avec toutes ses lignes et ses colonnes dans notre feuille de calcul.

Comme vous pouvez le constater, l’importation « XML to Google Sheets » peut être utilisée de façon incroyablement polyvalente et permet d’économiser quantité de temps et d’efforts.

Note

De nombreuses plateformes de réseaux sociaux et de grands revendeurs en ligne comme Amazon interdisent le Web scraping. Par conséquent, lisez tout d’abord les conditions d’utilisation avant de mettre à l’épreuve vos nouvelles compétences en Web scraping sur ces plateformes.

Cet article vous a-t-il été utile ?

Articles Populaires

Nom de domaine mail : qu’est-ce que c’est et comment en créer un

Dans cet article dédié, nous vous présentons comment créer une adresse mail avec son…

Comment acheter un nom de domaine ?

Comment enregistrer un nom de domaine avec le domaine de premier et de deuxième niveau que…

Quels types de domaines existe-t-il ?

Quelle est la différence entre un domaine de premier et de deuxième niveau ? Qu’est-ce…

Le Prompt Engineering : explication

Qu’est-ce que le Prompt Engineering ? Comment peut-il améliorer les résultats de ChatGPT…

Aperçu de 7 types de sites Internet : quel site Web correspond à vos besoins ?

Le choix d’un bon type de site Internet est essentiel à la réussite de tout projet en…

Google Sheets Translate : traduire un tableau avec la fonction Google

Google Sheets Translate propose une fonction de traduction simple qui permet de traduire automatiquement des mots et des phrases, grâce à l’outil de traduction chevronné qu’est Google Traduction. Et on peut dire qu’il y a le choix en matière de langues ! Une fonction similaire…

Tutoriels

ronstikShutterstock

Mise en forme conditionnelle de Google Sheets : explications

Le programme Google Sheets permet aux utilisateurs de modifier la mise en forme automatique des cellules. La mise en forme conditionnelle de Google Sheets peut être utilisée pour rendre vos feuilles de calcul plus lisibles, et mettre automatiquement en évidence les données et les…

Google
Tutoriels

UndreyShutterstock

Comment ouvrir des fichiers .xml et les modifier

Envisagé comme le successeur de .html, le fichier .xml est désormais la norme pour échanger des données entre deux systèmes. L’homme et la machine peuvent lire le contenu de la même manière ici. Nous expliquerons comment fonctionne précisément ce format, quels avantages il offre…

Tutoriels