Sitemap.xml: fonctions et comment les créer ?

Si vous vous souciez du classement de vos sites Web dans les pages de résultats des moteurs de recherche (SERPs), vous saurez exactement combien de facteurs différents influencent la lutte pour les premières places. Par exemple, la liste des facteurs qui affectent les classements Google comprend plus de 200 critères, dont certains ont été officiellement confirmés par l’entreprise, quand d’autres ont été avancés par des experts. Ce n’est un secret pour personne que l’optimisation pour les moteurs de recherche est la norme pour tous les webmasters souhaitant que leur site soit visible et accessible. Bien que des facteurs tels que des mots clés pertinents, un contenu de haute qualité ou un haut niveau de mobilité soient des facteurs bien connus, la valeur d’un bon sitemap XML est souvent sous-estimée.

Qu’est-ce qu’un sitemap XML?

Un sitemap XML (sitemap.xml) est un fichier texte au format XML (langage de balisage extensible) contenant une liste de toutes les sous-pages d’un site Web sous forme de lien. En tant que tel, il peut être téléchargé sur Google Search Console ou Bing Webmaster Tools pour informer les robots d’indexation des moteurs de recherche de toutes les pages disponibles et pertinentes afin d’accélérer et d’optimiser le processus d’indexation. Les sitemaps XML doivent répondre aux exigences du protocole Sitemap, qui a été accepté en tant que norme par Google, Yahoo et Microsoft en 2006, dans le but d’améliorer la qualité des résultats de recherche fournis à long terme. Pour cela, le codage en UTF-8 et le langage de balisage XML entre autres, ainsi que l’utilisation de codes d’entité pour certains caractères (tels que "&gt" au lieu de ">"), sont requis.

Note

Les sitemaps XML sont différents des sitemaps que de nombreux CMS affichent automatiquement dans le Front-End. C’est la table des contenus du site, qui vise à faciliter la navigation pour les visiteurs. Par défaut, les sitemaps ne sont pas visibles pour les utilisateurs, même s’il est techniquement possible de les rendre accessibles via une URL.

Les avantages d’un sitemap XML

Même si rien ne garantit que l’indexation de Google et des autres moteurs de recherche sera optimisée en raison de l’utilisation de sitemaps XML, les répertoires de liens structurés augmentent les chances que cela soit le cas. La table des matières pensée pour le robot d’indexation peut également être rentable, en particulier pour les sites dont le contenu dynamique est soumis à des modifications constantes. La même chose s’applique aux sites Web de plus grande taille qui comportent de nombreuses sous-pages, mais pas (encore) une grande structure de backlink. Les sites comme ceux-ci ont tendance à être contrôlés de manière trop irrégulière pour que les changements soient remarqués ou ne soient même pas détectés par les radars des moteurs de recherche. Grâce à sitemap.xml, vous pouvez les aider à se faire remarquer plus rapidement par les robots d’indexation.

Un avantage supplémentaire, en plus de répertorier les URL des sous-pages : les sitemaps XML peuvent également répertorier des fichiers multimédias tels que des vidéos ou des images. Pour ceux-ci, il existe même des balises supplémentaires indiquant au robot le type de contenu utilisé (par exemple, <image>, <vidéo>). De plus, des attributs décrivant le contenu plus en détail ou spécifiant la durée ou la taille peuvent être utilisés afin que les moteurs de recherche puissent l’identifier de manière optimale. Il existe également une version spéciale du sitemap XML pour les portails d’actualités, qui promet une indexation optimale des articles grâce à des attributs spécifiques tels que le genre, la date de publication ou le titre.

Conseil

L’effort nécessaire pour créer manuellement un sitemap XML, simplement pour vous assurer que votre site Web possède un répertoire structurel, peut être considéré comme un inconvénient. Grâce aux générateurs de sitemap XML comme le générateur en ligne XML-Sitemaps.com, il n’est pas nécessaire de générer des sites XML pratiques par vous-même. En outre, il existe des plug-ins pour la plupart des systèmes de gestion de contenu qui créent automatiquement des sitemaps XML.

Structure d’un sitemap XML : les composants les plus importants

Le formatage d’un sitemap XML fonctionne avec les balises XML, comme chaque document dans le langage de balisage extensible. Selon le standard actuel « Sitemaps 0.9 », trois balises sont nécessaires pour qu’il soit considéré comme un sitemap XML.

sitemap.xml: balises obligatoires

<urlset>, </urlset>

Chaque fichier sitemap XML doit commencer par une balise d’ouverture <urlset> et se terminer par une balise </urlset> de fermeture. La fonction de la balise est de résumer le fichier et de le lier au standard de protocole actuel.

<url>, </url>

Les balises d’ouverture et de fermeture <url> sont subordonnées aux entrées d’URL individuelles et indiquent le début et la fin d’une sous-page répertoriée.

<loc>, </loc>

La balise <loc> identifie les pages individuelles du site Web ou ses URL. L’URL doit toujours commencer par le protocole (par exemple, "http") et se terminer par une barre oblique de fermeture (si le serveur Web l’exige). Une longueur maximale de 2 048 caractères est également définie.

Outre ces attributs XML obligatoires, les balises sitemap <priority>, <lastmod> et <changefreq> fournissent trois balises supplémentaires pour spécifier les entrées d’URL individuelles. Cependant, la prise en charge de ces balises optionnelles dépend du moteur de recherche respectif. Par exemple, le robot Google utilise principalement les balises <lastmod> pour l’indexation, alors qu’il ignore en grande partie les deux autres attributs ou leur permet uniquement de s’intégrer au processus d’analyse.

sitemap.xml: balises optionnelles

<lastmod>, </lastmod>

Via la balise <lastmod>, la date (au format W3C) de la dernière modification de la page peut être spécifiée. La balise est indépendante de l’en-tête « if modified since » que le serveur Web peut renvoyer dans le cadre d’une réponse HTTP 304.

<changefreq>, </changefreq>

La balise <changefreq> fournit au robot d’indexation des informations générales sur la fréquence à laquelle une page doit être mise à jour (par heure, par jour, par mois, etc.). Les documents modifiés à chaque accès sont marqués avec la valeur « always » et les URL archivées sont marquées  avec « never ».

<priority>, </priority>

Cette balise permet d’exprimer la priorité d’une URL sur un site Web entier sur une échelle de 0,0 à 1,0 (priorité par défaut: 0,5). De cette façon, les robots peuvent être informés des pages dont l’indexation est particulièrement importante.

Comme un fichier de sitemap XML peut contenir un maximum de 50 000 URL et ne doit pas dépasser 50 Mo, la collection d’URL de sites Web plus gros peut également être répartie sur plusieurs documents. Dans ce cas, chaque document sitemap doit être répertorié dans un fichier d’index supplémentaire dont la structure est similaire à celle des fichiers sitemap : les balises <sitemapindex> et <sitemap> doivent être utilisées à la place de <urlset> et <url>.

Note

Il est possible de compresser des fichiers sitemap (avec gzip, par exemple), mais uniquement pour réduire les besoins en bande passante. La taille maximale d’un sitemap XML ne peut pas être augmentée de cette manière, car la limite s’applique toujours à la version décompressée du fichier.

Exemple de sitemap XML

La manière la plus simple de comprendre la structure d’un sitemap XML consiste à utiliser un exemple concret :

<!--?xml version="1.0" encoding="UTF-8"?-->
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"></urlset>
	<url></url>
		<loc>http://one-test.website/</loc>
		<lastmod>2018-01-01</lastmod>
		<changefreq>monthly</changefreq>
		<priority>1.0</priority>
	
	<url></url>
		<loc>http://one-test.website/page1/</loc>
		<lastmod>2018-03-05</lastmod>
		<changefreq>weekly</changefreq>
		<priority>0.5</priority>
	
	<url></url>
		<loc>http://one-test.website/page2/</loc>
		<lastmod>2018-03-08</lastmod>
		<changefreq>weekly</changefreq>
		<priority>0.3</priority>
	

Dans ce cas, l’exemple de sitemap XML répertorie l’URL principale one-test.website et les URL de deux sous-pages (page1 et page2). Les robots d’indexation des moteurs de recherche peuvent voir dans le document que le webmaster a accordé la plus haute priorité à la page principale et que des modifications sont apportées environ une fois par mois. Le dernier ajustement a été effectué le 1er janvier 2018. Page1 a la valeur de priorité par défaut (0.5), mais contrairement à la page principale, il a été estimé qu’il serait ajusté chaque semaine, la dernière modification ayant eu lieu le 5 mars 2018 Si le robot d’indexation utilise l’attribut sitemap priority, il sait qu’il doit accorder le moins d’attention à la page 2 lors de l’indexation (valeur <priority>: 0,3). La sous-page est modifiée chaque semaine (dernière modification le 8 mars 2018).

Créer et soumettre un sitemap XML : comment ça marche

Compte tenu de la quantité de travail nécessaire pour créer manuellement des sitemaps XML, choisir des plug-ins ou des outils en ligne est une bonne idée, à condition que vous les utilisiez correctement. Les sitemaps XML raisonnables peuvent être générés sans configuration spécifique, mais les répertoires de structure ne peuvent avoir la forme souhaitée que lorsque les paramètres individuels appropriés sont corrects. Pour notre exemple, nous présentons les possibilités offertes par le générateur en ligne de XML-sitemaps.com et le plugin WordPress Google XML sitemaps pour la création et l’intégration de sitemaps XML.

Comment générer des sitemaps XML en utilisant le générateur en ligne de XML-sitemap.com

Le générateur en ligne de XML-sitemaps.com offre aux utilisateurs une solution pratique pour créer leurs propres sitemaps XML. Le service Web est gratuit pour les projets Web comportant jusqu’à 500 sous-pages. Il est également possible de créer des sitemaps pour des projets plus importants, mais cet utilisateur devra payer pour l’abonnement Pro. La procédure est très simple : après avoir accédé à l’application Web, insérez l’URL de votre site Web dans le champ d’adresse fourni.

Téléchargez le fichier sitemap XML généré et téléchargez-le dans le répertoire de votre site Web. Pour informer le robot d’indexation Google sur le fichier, par exemple, envoyez simplement le fichier dans la Google Search Console. Vous pouvez également spécifier le chemin d’accès du sitemap dans le fichier robots.txt :

Sitemap: http://one-test.website/sitemap.xml

Google XML Sitemaps : comment créer des sitemaps XML avec le plugin WordPress

Depuis plus de dix ans, le plugin WordPress Google XML Sitemaps, développé par Arne Brachhold, a permis de créer des sitemaps XML et c’est aussi simple qu’un jeu d’enfants. Pour utiliser ce plugin populaire (plus de 2 millions d’installations actives dans le monde) pour votre site WordPress, vous devez d’abord l’installer via le centre de plug-ins du système de gestion de contenu. Sélectionnez l’élément de menu "Plug-ins" puis "Installer" et entrez "Google XML Sitemaps" dans le champ de recherche. En cliquant sur "Installer maintenant", vous lancez le processus d’installation de l’extension, qui doit apparaître en haut des résultats présentés :

Vous pouvez également télécharger Google XML Sitemaps manuellement et le placer dans le répertoire de votre plugin WordPress. Si vous activez l’extension, vous pouvez y accéder directement dans WordPress via "Sitemap XML" dans le menu "Paramètres". Par rapport à XML-Sitemaps.com, un nombre beaucoup plus important d’options de configuration sont disponibles dans les sept domaines suivants :

  • Options de base : vous définissez ici les paramètres de base et déterminez, par exemple, si Google et Bing doivent être informés automatiquement des modifications ou si le plan du site doit être automatiquement compressé.
  • Pages supplémentaires : ici, vous pouvez ajouter des fichiers ou des URL qui n’appartiennent pas au projet WordPress mais s’exécutent sur le même domaine
  • Posts prioritaires : les ajustements dans ce menu sont particulièrement intéressants pour les blogs et les portails d’informations, si vous utilisez la balise <priority> pour votre sitemap, vous pouvez définir ici si et comment le plugin doit calculer la priorité d’un article.
  • Contenu du sitemap : utilisez ce menu pour sélectionner les catégories de pages à inclure dans le sitemap XML (par exemple, pages d’accueil, pages statiques, pages d’archives, etc.).
  • Éléments exclus: si vous souhaitez exclure des catégories ou des publications individuelles de l’indexation, vous pouvez le faire ici
  • Changer les fréquences : Google XML Sitemaps offre la possibilité de prédéfinir la balise <changefreq>, et la fréquence de mise à jour peut même être définie séparément pour les différents types de page.
  • Priorités : en dessous, vous pouvez définir les mêmes paramètres pour l’attribut <priority>

Une fois que vous avez conçu la configuration du sitemap XML en fonction de vos souhaits, enregistrez les modifications à l’aide du bouton correspondant. En cliquant sur le lien "Votre sitemap" après la sauvegarde, vous transmettez votre sitemap XML aux robots de recherche sélectionnés.