Le trafic de données entrant est l’un des prin­ci­paux in­di­ca­teurs de succès d’un site Web. Les opé­ra­teurs utilisent des mesures comme les visites et im­pres­sions de pages pour mesurer les flux de visiteurs et évaluer la per­for­mance des projets Web. Cela se fait dans le contexte de l’analyse des fichiers log. De plus, les ex­ploi­tants de sites utilisent des solutions lo­gi­cielles basées sur le Web telles que Google Analytics, Piwik ou etracker, afin de collecter et évaluer les données relatives au trafic. Si des ir­ré­gu­la­ri­tés se pro­dui­sent, cela est dû, entre autres, au spam referrer (également appelé spam des sites référents). Nous vous montrons comment détecter les attaques spam de ce type et comment prévenir du­ra­ble­ment les sta­tis­tiques fal­si­fiées.

Qu’est-ce que le spam referrer?

Le spam referrer est une forme de spam de moteur de recherche dans lequel les pirates in­for­ma­tiques (les « hackers ») tentent de manipuler les fichiers logs et les sta­tis­tiques d’analyse de certains sites Web. Le but est de générer ce que l’on appelle du faux trafic, afin de simuler des flux de visiteurs ou provoquer l’accès à son propre site Web. Les deux modèles d’attaque reposent sur des pro­grammes in­for­ma­tiques largement in­dé­pen­dants, ce que l’on appelle des bots (abré­via­tion de « robot »).

Que sont les spams bots?

Les pro­grammes in­for­ma­tiques qui exécutent au­to­ma­ti­que­ment des tâches ré­pé­ti­tives sont une com­po­sante centrale du World Wide Web tel que nous le con­nais­sons aujourd’hui. Les moteurs de recherche comme Google ou Bing utilisent des pro­grammes de ce type, afin de chercher à travers le Web et indexer les pages per­ti­nentes. On parle alors de crawler Web ou de search­bots.

Cependant, les hackers utilisent également des bots pour au­to­ma­ti­ser leur activité sur le Web. A l’inverse des crawlers des four­nis­seurs de moteur de recherche, l’accent n’est pas mis sur l’intérêt des uti­li­sa­teurs. Ces pro­grammes sont utilisés à la place dans les attaques spam pour :

Le spam de sites référents est aussi gé­né­ra­le­ment basé sur un bot. Il faut dif­fé­ren­cier deux classes de robots col­lec­teurs de spam :

  • Pro­grammes qui simulent des visites de pages de sites Web : les spam bots de ce type imitent les na­vi­ga­teurs Web courants tels que Chrome, Firefox ou Safari et envoient en masse des requêtes HTTP aux serveurs Web choisis. Ces pro­grammes s’ap­pa­ren­tent aux crawlers Web des four­nis­seurs de moteurs de recherche et se ca­mouflent aussi en na­vi­ga­teur Web. Puisque les pro­grammes de ce type de spam simulent la visite d’un site Web de la part d’un uti­li­sa­teur humain, le modèle de l’attaque est alors appelé crawling spam. Les effets du crawling spam sont visibles dans les fichiers log du serveur. On parle alors aussi de spam de fichiers log.
  • Pro­grammes qui fal­si­fient les données relatives au trafic : les spam bots imitent les données relatives au trafic d’autres sites Web et les in­tro­dui­sent de manière inaperçue dans le serveur des outils d’analyse Web établis. Un tel modèle d’attaque permet de manipuler les sta­tis­tiques Web sans qu’il y ait d’in­te­rac­tion avec le site cible. Ce modèle d’attaque n’apparaît pas dans le fichier log du serveur, mais ex­clu­si­ve­ment dans les rapports du logiciel d’analyse manipulé. C’est ce que l’on appelle le ghost spam.

Nous examinons en détail les deux modèles d’attaques et vous pré­sen­tons des contre-mesures.

Crawler spam

La plupart des serveurs Web con­ser­vent un fichier log central (le journal d’accès) dans lequel tous les accès sont en­re­gis­trés dans un ordre chro­no­lo­gique avec un ho­ro­da­tage. L’exemple suivant montre l’entrée du journal d’accès d’un serveur Apache en combined log format (format log combiné) :

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

L’entrée contient les in­for­ma­tions suivantes :

In­for­ma­tion Exemple
Adresse IP-de l’hôte demandeur 127.0.0.1
Nom d’uti­li­sa­teur de l’au­then­ti­fi­ca­tion HTTP frank
Ho­ro­da­teurs [10/Oct/2000:13:55:36 -0700]
Requêtes HTTP GET /apache_pb.gif HTTP/1.0
Code d’état HTTP 200
Taille de fichier 2326
Referer [sic] "http://www.example.com/start.html"
Agent uti­li­sa­teur Mozilla/4.08 [en] (Win98; I ;Nav)

Les hackers utilisent la jour­na­li­sa­tion au­to­ma­tique via des fichiers log, afin d’injecter leur propre URL dans les fichiers log au moyen de requêtes HTTP de masse. Au premier plan se trouve le champ referrer [sic] (champ de référence) de la requête HTTP. Celui-ci contient l’URL du site Web de référence.

Note

en raison d’une erreur d’or­tho­graphe dans la spé­ci­fi­ca­tion HTTP, l’or­tho­graphe in­cor­recte « Referer » a été établie pour le champ cor­res­pon­dant dans l’en-tête http. Dans d’autres normes, l’écriture correcte avec deux r est utilisée.

Si un in­ter­naute clique sur l’hyperlien, il atterrit alors sur la page cible depuis le site Web actuel. Le referrer contient dans ce cas l’URL du site Web sur lequel se trouve le lien. Grâce à l'analyse d'un fichier log, l'opé­ra­teur de la page cible apprend quelles pages Internet renvoient vers son site et peut iden­ti­fier les sources po­ten­tielles de trafic.

Par le passé, il était courant dans l’univers des bloggeurs de publier les in­for­ma­tions referrer du fichier log dans un widget sur leur propre site et de montrer ainsi l’origine des flux de visiteurs. Le placement dans ces listes prenait gé­né­ra­le­ment la forme d’un lien vers la source de trafic. Les pirates in­for­ma­tiques ont profité de cette pratique pour manipuler les fichiers log des blogs et autres sites Web afin de po­si­tion­ner leurs propres projets Web aussi haut que possible dans les listes de liens publics et ainsi générer des backlinks et pages vues.

Au­jour­d'hui encore, des robots spammeurs spéciaux sont utilisés pour in­ter­ro­ger des pages cibles à grande échelle et trans­mettre en tant que referrer l'URL du site Web aux serveurs, dont la vi­si­bi­lité doit être augmentée. Cependant, les attaques spam de ce type ont fortement diminué. L'une des raisons est que les listes de referrer générées au­to­ma­ti­que­ment ne se trouvent pra­ti­que­ment plus sur les sites Web au­jour­d'hui. Cela s'ex­plique en partie par les chan­ge­ments im­por­tants apportés à l'al­go­rithme de clas­se­ment du leader du marché des moteurs de recherche Google. Depuis la mise à jour Penguin en avril 2012 au plus tard, Google s'in­té­resse de près au spam Web en relation avec les backlinks. Les projets Web qui se dé­mar­quent par leur sur-op­ti­mi­sa­tion doivent s'at­tendre à une pénalité. C'est par exemple le cas si les sites Web ont un grand nombre de backlinks provenant d'en­vi­ron­ne­ments non per­ti­nents, de listes de liens et de réseaux, d'an­nuaires d'ar­ticles ou de com­men­taires de blogs.

Au­jour­d'hui, les analyses de fichiers log sont rarement ef­fec­tuées ma­nuel­le­ment. À la place, des outils tels que Webalizer, AWStats ou Piwik sont utilisés. De plus, les outils d'analyse Web tels que Google Analytics offrent la pos­si­bi­lité d'évaluer les données de trafic sans utiliser les fichiers log du serveur. Ils ne sont pas moins sensibles au crawler spam ou ghost spam.

Iden­ti­fier le crawler spam

Nous vous montrons ci-dessous dans l’exemple Google Analytics comment vous pouvez re­con­naître un crawler spam dans les sta­tis­tiques de votre site Web et filtrer les referrer visibles.

  1. Ouvrir le compte Google Analytics : ouvrez le compte Google Analytics de votre projet Web.
Note

toutes les captures d'écran de la vue Web de Google Analytics pro­vien­nent de la boutique Google Mer­chan­dise Store, qui est donnée par le four­nis­seur sous forme de démo. Vous trouverez le lien vers le compte sur les pages d'aide de Google Analytics. L'accès nécessite un compte Google gratuit

2. Récupérer les sta­tis­tiques du referrer : sé­lec­tion­nez dans la barre latérale l’option de menu « Ac­qui­si­tion » et cliquez sur la sous-rubrique « Ré­fé­rences » sous « Tous les accès ».

3. Fixer la période con­si­dé­rée : fixer la période d’ob­ser­va­tion du rapport aux trois derniers mois.

4.  Trier/filtrer les sta­tis­tiques du referrer : sous « Ac­qui­si­tion » > « Toutes les visites » > « Ré­fé­rences », Google Analytics présente toutes les sources d’hy­per­liens dirigeant vers votre site Web comme une dimension primaire dans un rapport de synthèse. Vous recevrez une liste de toutes les URL du referrer qui ont été en­re­gis­trées par Google Analytics au cours de la période de con­sul­ta­tion sé­lec­tion­née, ainsi que les valeurs de mesure res­pec­tives qui peuvent être at­tri­buées à ces URL.

Pour chaque referrer, Google Analytics affiche le nombre d’uti­li­sa­teurs et de sessions générés par ce lien. De plus, le taux de rebond moyen, le nombre de pages vues par session, la durée moyenne de la session, les taux de con­ver­sion, les tran­sac­tions et les ventes générées peuvent être lus à partir des sta­tis­tiques.

Dans le cadre de la pré­ven­tion du spam, c’est le nombre de pages vues (sessions) par source de référence, ainsi que le taux de rebond moyen, qui sont d’une im­por­tance par­ti­cu­lière.

Sous « Com­por­te­ment » cliquez sur le champ « taux de rebond », afin de trier la vue selon les ratios de cette colonne par ordre dé­crois­sant.

Le taux de rebond re­pré­sente une donnée en pour­cen­tage qui montre combien des pages vues l’ont été via la source, sans in­te­rac­tion avec votre site Web. Un taux de rebond de 100% ou 0% pour plus de 10 sessions, qui se font suite à la même source de référence est un indice clair d’in­ter­ro­ga­tion au­to­ma­tique.

Vous pouvez autrement utiliser une ex­pres­sion régulière (« Regular Ex­pres­sion », RegEx) pour filtrer la vue pour les référents spam connus. Il s’agit, par exemple, des sites Web suivants :

  • semalt.com
  • darodar.com
  • hul­fing­ton­post.com
  • buttons-for-website.com
  • best-seo-solution.com
  • free-share-buttons.com

Un modèle de filtre cor­res­pon­dant pourrait res­sem­bler à ceci :

semalt|darodar|hul­fing­ton­post|buttons-for-website|best-seo-solution

Le signe (|) cor­res­pond à une logique ou. Les méta-ca­rac­tères tels que les points (.) doivent être masqués avec une barre oblique inverse pré­cé­dente (\).

Afin d’utiliser le filtre, cliquez sur « Avancé » dans la barre de menu au-dessus du tableau de données.

Un masque de filtre s‘affiche.

Créer un filtre inclus pour la dimension « Source » et sé­lec­tion­nez l’option de filtre « Cor­res­pon­ding RegEx » (RegEx cor­res­pon­dant). Ajoutez n’importe quelle ex­pres­sion régulière comme modèle de filtre. Confirmez le processus en cliquant sur « Appliquer ».

5. Noter les referrer visibles : créez une liste noire de spam referrer dans laquelle vous incluez toutes les URL de sources suspectes. Cette liste servira plus tard de base à un filtre d’exclusion.

Bloquer un crawler spam via .htaccess

Le crawler spam sous-entend une visite sur votre site Web. Des contre-mesures fiables peuvent donc déjà être mises en place côté serveur. Nous vous mon­tre­rons comment procéder en utilisant le fichier de con­fi­gu­ra­tion .htaccess du serveur Web Apache le plus utilisé au monde

Si vous remarquez des URL visibles dans vos sta­tis­tiques de referrer, les pro­cé­dures suivantes peuvent être utilisées pour empêcher les robots spammeurs d’accéder aux pages Web :

  • Bloquer le referrer
  • Bloquer les adresses IP
  • Bloquer les agents uti­li­sa­teurs

Bloquer le referrer via .htaccess

Pour bloquer les URL du référent sé­lec­tionné, ouvrez le fichier htaccess-de votre serveur Web et ajoutez une section de code en utilisant l’exemple suivant :

RewriteEngine on
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*darodar\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*hulfingtonpost\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*buttons\-for\-website\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*best\-seo\-solution\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*free\-share\-buttons\.com\ [NC]
RewriteRule .* - [F]

La défense anti-spam côté serveur est basée sur la règle Re­wri­te­Rule:

.* - [F]

Celle-ci ordonne au serveur Web de répondre à toutes les requêtes HTTP entrantes avec le code d’état 403 Forbidden (interdit), dans la mesure où une ou plusieurs con­di­tions (Re­wri­te­Cond) sont remplies. L’accès aux robots col­lec­teurs de spam n’est ainsi plus possible.

Dans l’exemple actuel, chaque referrer qui doit être bloqué est défini, selon l’exemple suivant, comme une ex­pres­sion régulière dans un Re­wri­te­Cond séparé :

RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]

La condition est con­si­dé­rée comme remplie si la variable serveur %{HTTP_REFERER} cor­res­pond à l’ex­pres­sion régulière définie dans le Re­wri­te­Cond, par exemple :

^https?://([^.]+\.)*semalt\.com\

Les con­di­tions in­di­vi­duelles sont reliées par le drapeau [OR] dans le sens d’une logique ou. Par con­sé­quent, un seul Re­wri­te­Cond doit être rempli pour que la règle Re­wri­te­Rule soit appliquée. L’in­di­ca­teur [NC] définit la chaîne de ca­rac­tères pré­cé­dente comme non sensible à la casse (aucune dif­fé­rence de sig­ni­fi­ca­tion entre ma­jus­cules et mi­nus­cules).

Al­ter­na­ti­ve­ment, vous avez aussi la pos­si­bi­lité de définir certains mots-clés dans le Re­wri­te­Cond, qui mènent à une exclusion s’ils ap­pa­rais­sent dans le référent d’une requête HTTP. Dans l’exemple suivant, toutes les requêtes HTTP, dont le référent contient l’un des mots-clés por­no­gra­phie, pilule ou poker sont bloquées.

Les mots-clés doivent être munis de limites de mots à l’aide de RegEx. Utilisez pour cela le méta-caractère \b.

RewriteEngine on
RewriteCond %{HTTP_REFERER} \bporn\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpill\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpoker\b [NC]
RewriteRule .* - [F]

L’exclusion de mots clés sans limite de mots aurait le dé­sa­van­tage de bloquer les requêtes HTTP ; même si les com­bi­nai­sons de lettres définies dans le Re­wri­te­Cond sont utilisées dans un autre contexte, comme cela serait le cas avec les requêtes HTTP via les sites Web suivants par exemple :

http://manu.sporny.org/

www.rittersporn-zuchter.de/

http://www.fersensporn-online.de/

Bloquer les adresses IP via htaccess

Vous avez constaté que les attaques de spam sur votre site Web pro­vien­nent à plusieurs reprises des mêmes adresses Internet ? Dans ce cas, il est conseillé de bloquer les adresses IP cor­res­pon­dantes ou l’ensemble des plages d’adresses via htaccess.

Si vous souhaitez seulement bloquer une adresse IP unique, ajoutez un bloc de code dans votre fichier .htaccess suivant l’exemple ci-après :

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Allow from all

Toutes les requêtes HTTP qui découlent de l’adresse IP 203.0.113.100 seront au­to­ma­ti­que­ment réfutées à l’avenir. Un tel bloc de code peut contenir n’importe quel nombre d’adresses IP. Enumérez-les ensemble comme dans l’exemple suivant :

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Deny from 192.168.0.23
Allow from all

Si une plage entière d’adresses doit être interdite d’accès à votre site Web, notez-la selon le schéma suivant au format CIDA (Classless Inter-Domain Routing) :

RewriteEngine On
Order Deny,Allow
Deny from 198.51.100.0/24
Allow from all

Toutes les requêtes de la plage d‘adresses IP 198.51.100.0 bis 198.51.100.255 seront bloquées.

Attention : les hackers utilisent gé­né­ra­le­ment ce que l’on appelle des robots sociaux (botnets), afin d’in­ter­ro­ger ra­pi­de­ment les pages cibles à partir d’une variété d’adresses IP dif­fé­rentes. Ainsi, il est pra­ti­que­ment im­pos­sible d’empêcher du­ra­ble­ment l’accès aux spams par le blocage des adresses IP.

Note

un botnet est un réseau d’or­di­na­teurs infectés (appelés PC zombies) qui sert de base aux attaques de spam ou à l’envoi de logiciels mal­veil­lants. Pour mettre en place un tel réseau, les hackers in­tro­dui­sent clan­des­ti­ne­ment sur Internet leurs logiciels mal­veil­lants au sein d’or­di­na­teurs in­suf­fi­sam­ment sécurisés et utilisent leurs res­sources réseau pour lancer des attaques contre d’autres in­ter­nautes. Les botnets sont en règle générale dirigés de manière cen­tra­li­sée et sont le point de départ d’énormes vagues de spam et d’attaques DDOS à grande échelle.

Bloquer les user agents via .htaccess

Une autre pos­si­bi­lité de lutte contre les attaques spam consiste à bloquer certains User Agents (agents uti­li­sa­teurs) dont l’ID est utilisée par les spam bots, afin d’usurper l’identité des visiteurs légitimes.

Créez pour cela une section de code selon l’exemple suivant :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]

Par le passé, les opé­ra­teurs de site Web ont en­re­gis­tré à plusieurs reprises des accès par des spam bots qui se posaient comme robots de recherche pour le moteur de recherche chinois Baidu (Bai­dus­pi­der). Si vous n’attendez pas de trafic naturel de la Chine sur votre site Web, vous pouvez bloquer ce crawler en toute sécurité, pour prévenir les attaques de spam.

Filtre Google Analytics

La pré­ven­tion du spam côté serveur via htaccess est le moyen le plus durable de prévenir les crawler spams. Cependant, l’adap­ta­tion du fichier htaccess prend du temps et est sujette aux erreurs. Tous les ex­ploi­tants de sites Web n’osent pas formuler leurs propres règles de réé­cri­ture, pour une bonne raison car les erreurs peuvent avoir des effets graves sur l’ac­ces­si­bi­lité d’un site Web. Al­ter­na­ti­ve­ment, vous pouvez filtrer les spam bots au­to­ma­tiques à partir des sta­tis­tiques du programme d’analyse utilisé pour empêcher les rapports corrompus. Nous vous mon­tre­rons comment procéder en utilisant Google Analytics comme exemple.

Google Analytics vous offre deux options per­met­tant de filtrer les spam referrer depuis la vue des données.

  • Liste noire des spam referrer Google
  • Filtres per­son­na­li­sés

La vidéo YouTube suivante fait partie du « Digital Analytics Fun­da­men­tals Course » de l’Analytics Academy et offre une in­tro­duc­tion à la fonction filtre de Google Analytics :

dzwRzUEc_tA.jpg Pour afficher cette vidéo, des cookies de tiers sont nécessaires. Vous pouvez consulter et modifier vos paramètres de cookies ici.

Liste noire Google du spam referrer

Google a également reconnu le problème du spam referrer dans l’analyse des sta­tis­tiques des uti­li­sa­teurs. Ainsi, tous les bots et spiders connus peuvent être filtrés au­to­ma­ti­que­ment. Pour ce faire, procédez comme suit :

1. Ouvrir les pa­ra­mètres d’affichage des données : ouvrez votre compte Google Analytics et cliquez en bas à gauche sur « Ad­mi­nis­tra­tion » dans la barre de menu. Sé­lec­tion­nez l’option de menu « Pa­ra­mètres d’affichage des données ».

2. Activer la liste noire Google de spam referrer : faites défiler vers le bas jusqu’à la section « Filtrer les robots » et cochez « Exclure tous les résultats de bots et spiders connus ».

Google vous montre main­te­nant une version nettoyée des sta­tis­tiques de votre site Web.

Attention : ce sont uni­que­ment les données uti­li­sa­teurs, que l’outil peut affecter aux spam bots connus, qui seront filtrées. Le filtre ne s’applique donc qu’aux bots et spiders listés dans la liste noire de spam Google :

Filtres per­son­na­li­sés

Google Analytics vous permet également de définir des filtres au niveau du compte ou l’affichage des données. Les filtres définis au niveau du compte peuvent être appliqués à un ou plusieurs af­fi­chages de données selon les besoins. Si un filtre a été créé au niveau de l’affichage des données, il ne s’applique qu‘à l’affichage sé­lec­tionné.

Testez d’abord les filtres nou­vel­le­ment créés en les ap­pli­quant à une copie de l’affichage des données souhaitée. Procédez comme suit :

1. Créer une copie de l’affichage des données : naviguez via « Ad­mi­nis­tra­tion » > « Affichage des données » jusqu’au menu « Pa­ra­mètres de l’affichage des données » et cliquez sur « Copier l’affichage des données ». Nommez la copie comme vous le souhaitez et confirmez le processus en cliquant sur le bouton « Copier l’affichage des données ».

2. Définir le filtre défini par uti­li­sa­teur : sé­lec­tion­nez la copie que vous venez de créer sous « Ad­mi­nis­tra­tion » > « Affichage des données » et cliquez sur l’élément de menu « filtre ».

Si vous avez déjà créé des filtres pour cet affichage de données, Google Analytics les affichera dans une vue d’ensemble.

Pour définir un nouveau filtre défini par l’uti­li­sa­teur, cliquez sur le bouton « +Nouveau filtre » et sé­lec­tion­nez « Créer un nouveau filtre ».

Nommez le nouveau filtre (par ex. : referrer spam blocker).

Sé­lec­tion­nez les options suivantes sous « Filtrer les in­for­ma­tions » :

  • Type de filtre : « Per­son­na­lisé »
  • « Exclure »
  • Champ de filtre : « Source de la campagne »
Note

le nom du champ « Source de la campagne » définit la dimension « Source » pour les rapports Google Analytics.

Vous avez main­te­nant la pos­si­bi­lité de définir un motif de filtre sous la forme d’une ex­pres­sion régulière. Utilisez votre liste noire de spam referrer pré­cé­dem­ment créée. Une telle con­fi­gu­ra­tion de filtre pourrait res­sem­bler à ceci :

(?:([^. ]+)\.)?(?:([^.]+)\.)?(semalt|hulfingtonpost|buttons-for-website|best-seo-solution)\.(com|de|net|org|ru)

3. Vérifier le filtre : cliquez sur « Vérifier le filtre », afin de tester comment agit le filtre sur l’affichage de données actuel.

Note

la vé­ri­fi­ca­tion fonc­tionne seulement si la vue sé­lec­tion­née contient suf­fi­sam­ment de données.

Cliquez sur en­re­gis­trer pour terminer la con­fi­gu­ra­tion du filtre. Le filtre d’exclusion nou­vel­le­ment créé est affiché dans la synthèse.

4. Appliquez le filtre à la vue prin­ci­pale : si votre filtre per­son­na­lisé fonc­tionne comme voulu, appliquez-le à la vue prin­ci­pale de votre compte Google Analytics.

Note

les filtres de données sont un bon moyen de nettoyer vos rapports d’analyse des spams de par­rai­nage. Sachez cependant que l’option de filtrage de Google Analytics ne cache que le trafic causé par les bots. Le vrai problème, la charge de votre serveur par des attaques de spam, n’est donc pas résolu. La pré­ven­tion durable du spam devrait dont être basée sur des mesures côté serveur pour empêcher les spam bots de visiter au­to­ma­ti­que­ment les sites Web.

Bloquer le spam referrer via le plugin WordPress

En tant qu’uti­li­sa­teur d’une page d’accueil WordPress, vous pouvez sécuriser votre site Web contre les crawler spams en utilisant un plugin. Des logiciels tiers ap­pro­priés sont à votre dis­po­si­tion gra­tui­te­ment via la page WordPress.

Les plugins WordPress les plus po­pu­laires, avec des mises à jour ré­gu­lières, incluent :

Nous vous montrons, dans l’exemple suivant, comment installer et con­fi­gu­rer les plugins WordPress contre le spam referrer en utilisant block referrer spam :

Installer le plugin spam referrer

Le système de gestion de contenu WordPress vous permet de gérer les plugins di­rec­te­ment depuis la zone d’ad­mi­nis­tra­tion du logiciel. Procédez comme suit :

1. Ouvrir la zone d’ad­mi­nis­tra­tion WordPress : pour activer le plugin spam referrer, connectez-vous à la zone d’ad­mi­nis­tra­tion de votre page WordPress avec vos données de connexion.

2. Chercher et installer des plugins : naviguez jusqu’à l’option de menu « Plugins » et sé­lec­tion­nez « Installer », afin d’ajouter d’autres plugins à votre page WordPress.

Entrez « Block Referrer Spam » dans la barre de recherche et cliquez sur « Installer » pour intégrer le plugin dans votre site Web.

Le plugin sera d’abord ajouté à votre liste de plugin à l’état désactivé.

3. Activer les plugins : lancez Block Referrer Spam en cliquant sur « Activer ».

La nouvelle option de menu « Referrer spam » apparaît dans la barre latérale de votre zone d’ad­mi­nis­tra­tion WordPress.

Con­fi­gu­rer le plugin Referrer spam

Vous trouverez une courte des­crip­tion du plugin dans la zone de con­fi­gu­ra­tion du spam Block Referrer, ainsi que divers options sur les fonctions de mises à jour et blocages.

1. Ouvrir l’espace de con­fi­gu­ra­tion : cliquez sur l’option de menu « Spam referrer », pour per­son­na­li­ser le plugin.

2. Etablir un plan de mise à jour : sé­lec­tion­nez votre option de mise à jour préférée, mise à jour au­to­ma­tique ou manuelle du logiciel.

Conseil

utilisez la mise à jour au­to­ma­tique pour vous assurer que la liste noire du plugin est con­ti­nuel­le­ment ac­tua­li­sée avec les adresses de spam connues, afin de la maintenir à jour.

3. Réglage du block modus (mode bloc) : sé­lec­tion­nez le mode bloc de votre choix. Le plugin distingue le blocage de réé­cri­ture et le blocage WordPress.

Conseil

si possible, sé­lec­tion­nez réécrire le blocage pour empêcher ra­pi­de­ment et ef­fi­ca­ce­ment l’accès aux spams au niveau du serveur Web.

4. Créer une liste noire de spam de référence per­son­na­li­sée : afin de prévenir ef­fi­ca­ce­ment le spam, vous pouvez étendre ma­nuel­le­ment la liste noire du plugin. Pour ce faire, entrez les sites Web re­mar­quables dans le champ prévu à cet effet sous « Mes blocs ».

En­re­gis­trez votre con­fi­gu­ra­tion en cliquant sur « Appliquer les mo­di­fi­ca­tions ».

La liste noire complète des spams du plugin est ac­ces­sible via l’option de menu « Toutes les pages bloquées ».

Ghost spam

A l’inverse du crawler spam, le ghost spam agit sans in­te­rac­tion avec la page cible. Au lieu de cela, les bots envoient de fausses données brutes de trafic di­rec­te­ment au serveur des outils d’analyse basés sur le Web. Ces derniers traitent le faux trafic avec les données réelles de l’uti­li­sa­teur et trans­met­tent les in­for­ma­tions sous forme de rapports aux ex­ploi­tants de sites Web. Comme il n’y a aucune visite sur le site Web lors de ce type d’attaque, l’ap­pel­la­tion de ghost spam a été établie. Mais quel est le but de telles mesures par les hackers ?

Le but des attaques de ghost spam est d’attirer l’attention des opé­ra­teurs de sites Web. Les hackers jouent sur la curiosité de leurs cibles. L’idée derrière cela est la suivante : plus votre propre URL ap­pa­raî­tra de manière régulière dans les rapports d’analyse d’autres sites Web, plus il y a de chances que les opé­ra­teurs des projets attaqués con­sul­tent la source de référence pour voir qui leur apporte tant de trafic. Les URLs de référence cachent ha­bi­tuel­le­ment les sites Web avec des annonces d’affichage qui doivent être monétisés de cette façon. Dans le pire des cas, les ex­ploi­tants de ces sites Web utilisent des pourriels de référence pour infecter les or­di­na­teurs des visiteurs sans méfiance avec des logiciels mal­veil­lants.

Nous vous montrons comment fonc­tionne le ghost spam en utilisant Google Analytics et ce que vous pouvez en­tre­prendre contre ce type d’attaque.

Comment fonc­tionne Ghost-spam?

Dans le modèle d’attaque ghost spam, les hackers profitent du protocole de mesure de Google Analytics. Celui-ci est utilisé pour trans­fé­rer les données de trafic entre votre site Web et le serveur Web de l’outil d’analyse.

Tout ce dont les hackers ont besoin pour obtenir des données de Google Analytics sont des iden­ti­fiants de suivi valides. Il y a deux façons de procéder :

  • Les hackers utilisent des spam bots pour parcourir le code HTML des pages Web et lire les ID qu’elles con­tien­nent.
  • Les ID de suivi sont créés au hasard, à l’aide d’un gé­né­ra­teur.

De nombreux opé­ra­teurs de sites Web intègrent le code de suivi de Google Analytics di­rec­te­ment dans le code HTML de leur site Web. L’extrait de code suivant est utilisé :

<!-- Google Analytics -->
<script>
window.ga=window.ga||function(){(ga.q=ga.q||[]).push(arguments)};ga.l=+new Date;
ga('create', 'UA-XXXXX-Y', 'auto');
ga('send', 'pageview');
</script>
<script async src='https://www.google-analytics.com/analytics.js'></script>
<!-- End Google Analytics -->

Afin que le script puisse trans­mettre des données à Google Analytics, le caractère de rem­pla­ce­ment UA-XXXXX-Y doit être remplacé par l’ID de suivi in­di­vi­duel de l’uti­li­sa­teur respectif. Ceci est donc ac­ces­sible à tout programme qui lit le code HTML d’un site Web bien préparé.

Cette vul­né­ra­bi­lité peut être corrigée en utilisant le Google Tag Managers. Les ex­ploi­tants de sites Web disposent ainsi d’une interface uti­li­sa­teur grâce à laquelle des extraits de code Google (appelés tags) peuvent être gérés de manière cen­tra­li­sée. Au lieu de plusieurs balises pour dif­fé­rents services Google, seul un extrait de code pour le Google Tag Manager est inclus dans le code HTML. Le code de suivi de Google Analytics, y compris l’iden­ti­fi­ca­tion in­di­vi­duelle, reste ainsi protégé contre l’accès par des tiers.

Le ghost spam peut en principe affecter n’importe quel rapport de Google Analytics. En plus des in­for­ma­tions relatives au referrer, les hackers utilisent avant tout des rapports sur les prin­ci­paux évé­ne­ments, les mots-clés, les pages d’at­ter­ris­sage ou les pa­ra­mètres de langues, afin d’infiltrer les données de trafic ma­ni­pu­lées.

Dans le domaine du ghost spam, c’est le Russe Vitaly Popov qui rencontre le plus de succès. Depuis 2014, le hacker a pu infiltrer à maintes reprises les URL de ses propres sites Web dans les comptes Google Analytics. Fin 2016, le hacker a trompé la com­mu­nauté du réseau avec une page Google présumée secrète. En plus des abré­via­tions clas­siques comme fr, fr-fr ou en-us, des milliers d’uti­li­sa­teurs d’Analytics dans le monde entier ont trouvé le message suivant dans les rapports sur les pa­ra­mètres lin­guis­tiques de leur site Web :

« Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump! »

Cependant, les opé­ra­teurs de sites Web curieux qui ont suivi l’in­vi­ta­tion ne se sont pas retrouvés sur Google, car :

ɢoogle.com ≠ Google.com

Au lieu de cela, une re­di­rec­tion a été faite vers le site Web de Popov, dont l’URL contient presque tout le texte du tube Money de Pink Floy de l’album The Dark Side of the Moon (1973).

http://money.get.away.get.a.good.job.with.more.pay.and.you.are.okay.money.it.is.a.gas.grab.that.cash.with.both.hands.and.make.a.stash.new.car.caviar.four.star.daydream.think.i.ll.buy.me.a.football.team.money.get.back.i.am.alright.jack.ilo­ve­vi­taly.com/#.keep.off.my.stack.money.it.is.a.hit.do.not.give.me.that.do.goody.good.bullshit.i.am.in.the.hi.fidelity.first.class.tra­vel­ling.set.and.i.think.i.need.a.lear.jet.money.it.is.a.secret.%C9%A2oogle.com/#.share.it.fairly.but.dont.take.a.slice.of.my.pie.money.so.they.say.is.the.root.of.all.evil.today.but.if.you.ask.for.a.rise.it’s.no.surprise.that.they.are.giving.none.and.secret.%C9%A2oogle.com

L’objectif de l’URL était un site Web dans le style d’un catalogue Web du début des années 2000 avec des liens vers divers moteurs de recherche et boutiques en ligne. Aujourd’hui, l’URL ne mène nulle part. Le but exact de l’attaque spam de Popov n’est pas clair. Il est possible que le hacker ne s’in­té­res­sait qu’à tester le potentiel de tromperie de l’URL Ty­pos­quat­ting-URL ɢoogle.com.

Fon­da­men­ta­le­ment, le ghost spam est agaçant mais il ne re­pré­sente aucun danger pour votre site Web. Puisque le faux trafic ne donne pas lieu à de vé­ri­tables accès de site Web, ni votre serveur, ni les fichiers logs ne sont sur­char­gés par des requêtes au­to­ma­tiques. Toutefois, le ghost spam devient pro­blé­ma­tique si vous souhaitez évaluer les sta­tis­tiques de votre site Web via Google Analytics.

Note

évitez d’accéder à des referrers obscurs dans votre site Web. Votre système risque autrement d’être infecté par des logiciels mal­veil­lants provenant de la cible du lien.

Iden­ti­fier le ghost spam

Le ghost spam se base en règle générale sur des ID de suivi générés au hasard. Le spam bot ne sait donc pas quels sites Web sont concernés par l’attaque. Cela est exprimé par des in­co­hé­rences dans vos données Google Analytics.

Si un uti­li­sa­teur légitime accède à votre site Web via un lien, l’en-tête de la requête dans le champ « Host » HTTP con­tien­dra iné­vi­ta­ble­ment un nom d’hôte qui peut être attribué à votre réseau.

Cependant, les bots qui envoient du faux trafic  ne con­nais­sent pas ces noms d‘hôte et rem­plis­sent le champ hôte avec un caractère de rem­plis­sage aléatoire. Autrement, le champ reste vide et Google Analytics capture l’hôte sous la forme « (not set) ».

Utilisez ce schéma pour iden­ti­fier les ghost spam dans votre compte Google Analytics. La procédure suivante est re­com­man­dée :

1. Accédez au rapport du réseau : cherchez-le via « Groupe cible » > « Tech­no­lo­gie » et sé­lec­tion­nez « Nom de l’hôte » (nom de l’or­di­na­teur) comme « dimension primaire ».

2. Définir la période d’ob­ser­va­tion : réglez la période d’ob­ser­va­tion sur les trois derniers mois.

3. Iden­ti­fier les noms d’hôtes légitimes : dans la première colonne du rapport. Google Analytics vous montre tous les noms d’or­di­na­teurs adressés à votre site Web. Les noms qui peuvent être attribués aux domaines par l‘in­ter­mé­diaire desquels vous mettez votre site Web à dis­po­si­tion. De plus, vous trouverez ici des domaines Google qui sont res­pon­sables des tra­duc­tions et versions de cache de votre site Web.

translate.goo­gleu­ser­con­tent.com

webcache.goo­gleu­ser­con­tent.com

Si vous trouvez d’autres noms d’or­di­na­teur dans votre rapport réseau, qui ne cor­res­pon­dent pas à vos domaines ou aux pages d’as­sis­tance Google, il s’agit alors de ghost spam.

4. Créer des ex­pres­sions ré­gu­lières : notez tous les noms d’or­di­na­teur pour lesquels vous voulez évaluer les données relatives au trafic sous la forme d’une ex­pres­sion régulière. Par exemple :

^(www\.)?(example|goo­gleu­ser­con­tent)\.com

Vous en aurez besoin plus tard comme modèle de filtre. Assurez-vous que l’ex­pres­sion régulière inclut tous les noms d’or­di­na­teurs dont vous voulez analyser le trafic via Google Analytics.

En résumé

le ghost spam peut être identifié par la fait que l’hôte spécifié dans la requête HTTP ne cor­res­pond pas aux hôtes de votre réseau

Filtrer les ghost spam

Pour cacher le ghost spam de votre compte Google Analytics, tout ce que vous avez à faire est de filtrer tous les noms de machines qui ne font pas partie de votre réseau. Utilisez un filtre d’affichage des données inclues.

1. Sé­lec­tion­ner la copie de l’affichage des données : accédez à la gestion de votre compte Google Analytics et créez une copie de votre affichage de données ou sé­lec­tion­nez la copie pré­cé­dem­ment créée.

2. Définir le filtre : sé­lec­tion­nez l’option de menu « Filtre » et cliquez sur « +Nouveau Filtre » > « Créer un nouveau filtre ».

Saisissez un nom de filtre quel­conque (par exemple : hostname blocker, c’est-à-dire bloqueur de nom d’hôte).

Effectuez les réglages suivants sous « In­for­ma­tions sur le filtre »:

  • Type de filtre : « Per­son­na­lisé »
  • « Inclure »
  • Champ de filtre : « Nom d’hôte »

Sous « Modèle de filtre », insérez l’ex­pres­sion régulière pré­cé­dem­ment créée pour n’inclure que les noms d‘hôte de votre réseau dans la vue des données.

3. Vérifier le filtre : cliquez sur « Vérifier le filtre » pour tester comment le filtre affecte l’affichage des données sé­lec­tion­nées. Cliquez sur « En­re­gis­trer ».

4. Appliquer le filtre à l’affichage principal : si votre filtre fonc­tionne comme vous le souhaitez, trans­fé­rez-le dans la vue prin­ci­pale de vos données.

Toutes les données d’uti­li­sa­teur trans­mises par le ghost spam devraient main­te­nant être cachées. Rien de plus ne s’oppose à l’analyse sta­tis­tique du trafic de votre site Web.

Aller au menu principal