Duplicate content : comment le repérer et l’éviter ?

Sommaire

L’un des principes majeurs de l’optimisation des moteurs de recherche est de présenter du contenu unique. Ceci permet d’améliorer le classement d’un site Web dans les résultats de recherche et d’assurer une expérience utilisateur plus positive. C’est la base d’une stratégie de contenu réussie.

Le contraire d’un contenu unique est appelé contenu dupliqué (« duplicate content » en anglais). Ce terme renvoie à des blocs de texte entiers ou des pages Web entières dupliqués sur plusieurs URL. Il est important d’éviter ce type de contenu au profit d’un contenu unique en vue d’une optimisation des moteurs de recherche réussie.

Le contenu dupliqué a une incidence sur le classement et la convivialité d’un site Web.

Nom de domaine

Votre domaine en un clic

1 certificat SSL Wildcard par contrat
Fonction incluse Domain Connect pour une configuration DNS simplifiée

Duplicate content : qu’est-ce que c’est ?

Le terme duplicate content renvoie à des pages Web ou des passages de texte qui sont dupliqués sur plus d’un URL.

On en distingue généralement deux types :

Le contenu dupliqué interne renvoie à du contenu dupliqué au sein d’un même domaine
Le contenu dupliqué externe se trouve sur plusieurs domaines.

Chacun des termes renvoie à des pages ou des blocs de texte qui sont partagés sans modifications. Lorsque le contenu n’est pas identique à 100% mais presque identique, il est appelé near duplicate content (contenu presque dupliqué).

Exemples les plus fréquents de duplicate content

La majorité des propriétaires de sites Web connaissent les effets néfastes du contenu dupliqué et évitent ainsi d’en produire. Cependant, le contenu dupliqué interne s’avère être très fréquent. Ce dernier est souvent dû à des causes techniques. Vous trouverez plus d’informations à ce sujet dans la section « Les causes techniques du contenu dupliqué »

Il arrive souvent que le même contenu revienne plusieurs fois sur les différentes sous-pages d’un même domaine. Les boutiques en ligne en particulier sont confrontées à ce problème. Lorsqu’un produit est assigné à plusieurs catégories ou est disponible en différentes versions, la description est souvent à peu de chose près la même d’une page à l’autre. Ceci est considéré comme du contenu dupliqué. On a tendance à sous-estimer les PDF qui contiennent des informations produit. Si leur contenu correspond à celui de la landing page d’un produit, cela sera considéré comme du contenu dupliqué. Autre exemple : la philosophie de l’entreprise qui peut être publiée sur plusieurs sous-pages.

Les boutiques en ligne font également face à des formes de contenu dupliqué externe. Lorsque vous achetez des produits chez un grossiste, les autres revendeurs utiliseront probablement les mêmes descriptifs produits sur leurs propres sites Web. Dans ce cas, le contenu identique fait non seulement baisser le classement du site sur les moteurs de recherche, mais il affecte également la décision d’achat de clients potentiels. Si la présentation d’un produit est identique chez deux vendeurs, c’est le prix qui fera la différence. Il vaut mieux utiliser des descriptifs produit uniques et vérifier régulièrement que d’autres vendeurs ne les ont pas copiés.

La création de duplicate content externe se produit également lorsque vous copiez du contenu tiers, même dans le cadre d’une coopération et avec le consentement de l’auteur. S’il existe des versions d’autres pays et dans d’autres langues de votre site Web sous différents noms de domaines, cela engendre également le risque que du contenu dupliqué externe existe.

rankingCoach

Boostez vos ventes grâce au marketing digital par IA

Améliorez votre classement sur Google sans les frais d'une agence
Répondez aux avis clients et générez des publications pour les réseaux
Aucune connaissance en référencement et marketing en ligne requise

Pourquoi le duplicate content pose-t-il problème ?

Les moteurs de recherche tels que Google utilisent un algorithme pour évaluer tous les sites potentiellement pertinents et utilisent certains critères pour déterminer l’ordre dans lequel les résultats de recherche apparaissent. L’objectif de cette évaluation est de présenter à l’utilisateur le contenu le plus pertinent en tête des résultats.

Si le même contenu apparaît sur différents sites Web, les moteurs de recherches ne réussiront pas à effectuer une évaluation correcte. Cela complique l’attribution de la confiance, de la pertinence et de l’autorité et, en définitive, la création d’un classement. Dès lors, les moteurs de recherche évitent en général d’indexer le même contenu plusieurs fois et de l’afficher dans les résultats de recherche, car cela n’offre aucune valeur ajoutée pour l’utilisateur. Par conséquent, le classement des pages qui contiennent du contenu dupliqué va baisser.

Compte tenu des effets négatifs du contenu dupliqué, il convient de se méfier des logiciels appelés « web scrapers ». Ce type de programme copie les sites Web à l’identique. Un moteur de recherche comme Google peut désormais reconnaître les sites dits « scrapers » en se basant sur différents paramètres et les distinguer des « vrais » sites Web.

Entre 25 et 35% du contenu de tous les sites Web est en réalité du duplicate content. Le contenu dupliqué n’est pas toujours nécessairement une mauvaise chose. Cette vidéo explique comment Google traite le contenu dupliqué et ce qu’il faut éviter quoi qu’il arrive :

Pour afficher cette vidéo, des cookies de tiers sont nécessaires. Vous pouvez consulter et modifier vos paramètres de cookies ici.

Comment repérer du duplicate content ?

Nous vous conseillons de vérifier votre site Web régulièrement pour voir s’il contient du duplicate content. Cela arrive souvent sans que le gestionnaire du site Web ne le sache, par exemple lors de la création de nouvelles pages ou lorsque des liens internes sont incohérents. Ci-dessous, nous vous présenterons les méthodes les plus courantes pour traquer du contenu dupliqué.

Vérifier manuellement votre site web

Si votre site Web est constitué d’un nombre limité de sous-pages, une bonne solution peut être de vérifier celles-ci manuellement. Faites particulièrement attention aux sections de texte que vous utilisez plusieurs fois sur votre site web. C’est typiquement le cas lors de la présentation des valeurs de la société ou lors d’un appel à l’action.

Vous soupçonnez un bloc de texte d’apparaître plus d’une fois ? Dans ce cas, n’hésitez pas à vérifier avec une recherche Google. Saisissez le texte entre guillemets dans la barre de recherche et voyez si différents URL pour votre site Web apparaissent dans les résultats de recherche.

Conseil

Google cache les résultats de recherche dupliqués pour montrer seulement les pages pertinentes à l’utilisateur. Si vous relancez votre recherche, les résultats cachés précédemment seront affichés comme appartenant au classement.

Rechercher du contenu dupliqué à l’aide d’un outil d’analyse

Lorsqu’il y a un grand nombre de sous-pages ou sur un site d’e-commerce, une recherche manuelle peut être très chronophage. Étant donné que beaucoup de gestionnaires de sites Web sont confrontés à ce problème, il existe divers outils à même de rechercher automatiquement du contenu dupliqué.

La Google Search Console est un outil d’analyse gratuit et utile qui permet l’optimisation des moteurs de recherche et une recherche de contenu dupliqué interne. Il va d’abord trouver le mot-clef principal sous lequel les gens trouvent et visualisent votre site. Vous pouvez ensuite filtrer pour obtenir leurs requêtes exactes. Si l’outil répertorie plusieurs sous-pages, vous pouvez alors vérifier si du contenu dupliqué se trouve parmi elles. Dans le rapport de couverture de l’index, sous « Pages exclues », vous pouvez voir les sous-pages ayant été identifiées comme des doublons et exclues en conséquence.

Pour découvrir du contenu dupliqué externe, vous aurez besoin d’un outil d’analyse tel que Copyscape ou Siteliner. Saisissez simplement votre URL et les outils afficheront la liste de toutes les pages internes et externes dont le contenu correspond à votre URL.

Comment éviter le duplicate content ?

À présent, vous savez comment débusquer du contenu dupliqué. Mais il vaut encore mieux l’éviter dès le départ. Pour cela, suivez ces conseils :

Créez des sous-pages que l’on peut facilement distinguer par thème et utilisez des mots-clefs principaux différents pour chaque page. La meilleure façon de maîtriser cela est de définir une stratégie de mots-clés en amont.
Évitez d’insérer des paragraphes généraux sur différentes sous-pages
Évitez de copier/coller des textes prérédigés (sauf s’il s’agit d’une citation présentée comme telle ou d’une citation légale).
Faites attention à la compatibilité des liens internes et assurez-vous de ne pas avoir d’entrées différentes pour le même URL. Celles-ci sont typiquement créées en ajoutant index.htm à l’URL de la page d’accueil ou en créant des variantes avec ou sans slash de fin (/).
Utilisez des domaines de niveau supérieur pour les versions de différents pays et en différentes langues de votre site tels que https//www.exemple.com par opposition à des sous-domaines tels que https//www.exemple.org/fr.

En général, vous ne pouvez pas influer sur la création de contenu dupliqué externe si d’autres webmasters copient votre contenu. Par conséquent, nous vous conseillons de lancer le crawl manuellement après avoir créé une nouvelle page. Si votre site Web est indexé avec le contenu respectif en tant que première page, il sera classifié comme l’original.

Les causes techniques du duplicate content

Certaines causes techniques provoquent souvent la création de contenu dupliqué sans que le gestionnaire du site Web ne le sache. Nous vous conseillons de vérifier votre présence en ligne à l’aune des points suivants :

Plusieurs variantes d’une adresse web

Lorsque vous passez en HTTPS crypté (Hypertext Transfer Protocol Secure), il est important de configurer le transfert depuis votre ancienne adresse Web. Si votre ancien site reste accessible via http://, du contenu dupliqué identique à 100% sera créé !

Assurez-vous de vérifier s’il est possible d’accéder à votre site Web en utilisant des orthographes différentes. Voici les exemples les plus courants :

Votre page d’accueil est accessible via index.php de même qu’avec ou sans slash de fin.
Votre site Web est accessible avec et sans www dans le corps de l’URL.
Votre URL est sensible à la casse.

Si vous repérez deux URLs ou plus conduisant à la même sous-page, configurez une redirection 301 jusqu’à la page principale pour toutes les variantes.

Autres mesures techniques

Si votre site Web a des versions d’autres pays ou en langues différentes, marquez-les avec un hreflang pour éviter le contenu dupliqué.
Vérifiez les paramètres de vos URL. Ceux-ci permettent souvent la création de nombreux URL uniques qui conduisent au même contenu. Il s’agit d’une cause fréquente de contenu dupliqué, en particulier du fait des fonctions de filtrage des boutiques en ligne.
Faites attention aux ID de session qui font partie d’un URL. Du fait de ceux-ci, les crawlers peuvent recevoir un nouvel ID à chaque fois que quelqu’un accède à une sous-page et ainsi atteindre un nouvel URL.
Empêchez les versions imprimables de vos sites d’être indexées.

Comment traiter le duplicate content correctement ?

La contrefaçon intentionnelle de contenu tiers est interdite pour des raisons de droits d’auteur et conformément aux règles édictées par Google. Néanmoins, la présence de contenu dupliqué en ligne est normale et n’est pas directement punie. Quoi qu’il en soit, nous vous conseillons d’éviter le contenu dupliqué aussi souvent que possible.

Lorsqu’un site Web contient deux sous-pages ou plus où se trouve du contenu similaire ou identique, vous pouvez fusionner le contenu en une seule page ou étendre les sous-pages respectives en ajoutant du contenu unique et des mots-clefs individuels pour optimiser leur contenu SEO. La meilleure option pour vous dépend de la pertinence des pages et de la possibilité de renforcer les mots-clés.

Choisissez des mots-clés forts pour les titres, méta-descriptions et méta-titres. Ainsi, ils ne seront pas classifiés comme du duplicate content et vous améliorerez votre classement auprès des moteurs de recherche. Pour modifier des textes existants et les différencier, utilisez des bullet points, des listes et des tableaux, ou intégrez des images ou des vidéos.

Note

Les moteurs de recherche peuvent repérer les doublons éventuels dans les en-têtes et les pieds de page et ne pas les considérer comme du contenu dupliqué. Dans ce cas, il n’est pas nécessaire de créer du contenu différent pour chaque sous-page.

Si vous souhaitez partager du contenu existant, par exemple, un article de blog ou un communiqué de presse sur d’autres sites, utilisez cette balise canonique rel="canonical" dans l’en-tête. Ce faisant, vous déclarez que l’URL sélectionné est la ressource standard ou l’URL original. La balise est invisible pour les utilisateurs et explique néanmoins clairement au moteur de recherche la façon dont les pages sont liées les unes aux autres.

Conseil

Le duplicate content n’est qu’un aspect parmi d’autres du SEO. Faites confiance au rankingCoach de IONOS pour vous aider à optimiser votre site Web étape par étape grâce à des tutoriels vidéo très utiles.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Les termes essentiels expliqués dans notre glossaire SEO

L’optimisation pour les moteurs de recherche est un élément important pour le succès de votre site Web, car sans SEO, vos pages seront moins souvent affichées sur Google et autres. Mais au début, les nombreuses notions de SEO peuvent prêter à confusion. Notre lexique SEO donne un…

Référencement Naturel
Google

ronstikShutterstock

Refonte de site Web : les étapes à suivre pour relancer votre projet en ligne

Sur le Web, ce qui est actuel aujourd’hui peut être obsolète demain. Internet évolue sans cesse grâce aux avancées technologiques. Les responsables de sites Web doivent en permanence relever de nouveaux défis. Une refonte ponctuelle mais planifiée avec soin constitue une solution…

Savoir-Faire Web
Guide

Creativa ImagesShutterstock

Critères de référencement Google

Avec une part de marché de plus de 90%, Google est de loin le moteur de recherche le plus utilisé en France. Pour un exploitant de site Web commercial comme une boutique en ligne, ou bien d’un simple projet Web, il est essentiel de positionner les pages de son site le plus haut…

Référencement Naturel
Google
Guide

Duplicate content : comment le repérer et l’éviter ?

Duplicate content : qu’est-ce que c’est ?

Exemples les plus fréquents de duplicate content

Pourquoi le duplicate content pose-t-il problème ?

Comment repérer du duplicate content ?

Vérifier ma­nuel­le­ment votre site web

Re­cher­cher du contenu dupliqué à l’aide d’un outil d’analyse

Comment éviter le duplicate content ?

Les causes tech­niques du duplicate content

Plusieurs variantes d’une adresse web

Autres mesures tech­niques

Comment traiter le duplicate content cor­rec­te­ment ?

Vérifier manuellement votre site web

Rechercher du contenu dupliqué à l’aide d’un outil d’analyse

Les causes techniques du duplicate content

Autres mesures techniques

Comment traiter le duplicate content correctement ?