« Spam will be a thing of the past in two years’ time! ». Avec cette prophétie, Bill Gates a surpris le public au forum éco­no­mique mondial de Davos en 2004. Une erreur fatale, qui fait encore rire la com­mu­nauté Internet au­jour­d'hui et place du­ra­ble­ment le co-fondateur de Microsoft dans la liste des dé­cla­ra­tions les plus ha­sar­deuses de l'in­dus­trie in­for­ma­tique.

En 2004, même B. Gates n'avait aucune idée de l'évo­lu­tion que pourrait prendre le spam au cours des années qui sui­vraient. Au­jour­d'hui encore, il ne se passe pas un jour sans que la plupart des in­ter­nautes ne soient con­fron­tés à des contenus pu­bli­ci­taires générés de façon au­to­ma­tique, que ce soit dans leur boîte mail, sur leur blog préféré, dans la fonction com­men­taire d'une boutique en ligne ou dans le livre d'or de leur propre page d'accueil.

En fait, les robots spammeurs de­vien­nent de plus en plus in­tel­li­gents. Les pro­grammes in­for­ma­tiques en grande partie autonomes re­cherchent sur Internet des champs de for­mu­laires et d'autres éléments de pages Web in­te­rac­tifs pour placer les messages pu­bli­ci­taires de vos pro­gram­meurs, et surmonter même les pro­cé­dures in­gé­nieuses anti-spam très ra­pi­de­ment.

Pendant longtemps, le captcha a été considéré comme un rempart contre les spams. Mais ses requêtes en­nuyeuses cons­ti­tuent plus souvent un obstacle pour les uti­li­sa­teurs humains au­jour­d'hui que pour les pro­grammes so­phis­ti­qués. En fait, des études récentes sur la tech­no­lo­gie captcha ont montré que les robots spammeurs ont souvent un taux d'erreur plus faible que les humains. Est-ce la fin des codes captcha, des quiz en images et des tests de logique ? Voici un aperçu des domaines d'ap­pli­ca­tion de la tech­no­lo­gie captcha, une com­pa­rai­son des dif­fé­rents types, ainsi que des al­ter­na­tives de pré­ven­tion du spam.

Qu'est-ce qu'un captcha ?

Un captcha est une méthode de pro­tec­tion anti-spam. L'ob­jec­tif est de protéger les sites Web in­te­rac­tifs contre les abus en filtrant les entrées générées au­to­ma­ti­que­ment. L'acro­nyme captcha signifie Com­ple­tely Automated Public Turing test to tell Computers and Humans Apart. En français littéral, un captcha est donc un test de Turing public en­tiè­re­ment au­to­ma­tique pour dis­tin­guer les or­di­na­teurs des humains.

Dès 1950, l'in­for­ma­ti­cien Alan Turing proposa une procédure pour tester la capacité de pensée de l'in­tel­li­gence ar­ti­fi­cielle. Selon ce pionnier de l'in­for­ma­tique, une machine est capable d'imiter la capacité de pensée humaine si elle réussit à dialoguer avec les gens sans qu'ils ne re­mar­quent qu'il s'agit d'un or­di­na­teur.

Le test de Turing est entré dans l'his­toire de la recherche sur l'IA (in­tel­li­gence ar­ti­fi­cielle) et n’avait été réussi par un programme in­for­ma­tique avant 2014 : Eugene Goostman a été la première machine au monde à tromper plus de 30% d'un jury in­dé­pen­dant pendant au moins 5 minutes. Eugene a réussi à faire semblant d'être un ado­les­cent ukrainien avec des cochons d'Inde, et charmé par les textes po­li­ti­que­ment in­cor­rects du rappeur Eminem.

Ce qui semble être de la science-fiction constitue au­jour­d'hui l'un des prin­ci­paux problèmes d'In­ter­net. Pour les sites Web in­te­rac­tifs, il est essentiel de pouvoir dis­tin­guer les in­ter­nautes des pro­grammes in­for­ma­tiques dans le contexte de la vé­ri­fi­ca­tion humaine. Les captchas de plus en plus so­phis­ti­qués sont conçus pour aider à empêcher les entrées au­to­ma­ti­sées ou les requêtes de spam et les robots de clics (bots).

Quel est le but des captchas ?

Les captchas sont gé­né­ra­le­ment utilisés lorsque les ap­pli­ca­tions Web re­quiè­rent la par­ti­ci­pa­tion de l'uti­li­sa­teur. Imaginez que vous ex­ploi­tiez une boutique en ligne et donniez à vos clients la pos­si­bi­lité d'écrire des com­men­taires sur les produits avec une fonction de com­men­taire. Dans ce cas, vous voulez vous assurer que les entrées pro­vien­nent bien de vos clients ou du moins des visiteurs humains de votre site Web. Au lieu de cela, on trouve souvent un grand nombre de messages de spam générés au­to­ma­ti­que­ment, avec dans le pire des cas, des liens vers des con­cur­rents.

Ces dommages peuvent être limités en utilisant un captcha pour sécuriser les for­mu­laires en ligne, ce qui exige des vé­ri­fi­ca­tions des uti­li­sa­teurs avant d’envoyer leurs sou­mis­sions. Au­jour­d'hui, on peut trouver des captchas dans presque tous les domaines où les in­ter­nautes doivent être dis­tin­gués des robots. Ceci comprend les for­mu­laires d'ins­crip­tion pour les services de courrier élec­tro­nique, les bulletins d'in­for­ma­tion, les com­mu­nau­tés et les réseaux sociaux, mais également les sondages en ligne ou les services Web tels que les moteurs de recherche.

Au fil du temps, dif­fé­rentes méthodes de vé­ri­fi­ca­tion humaine ont été mises au point. Toutefois, en principe, aucune méthode établie n'offre une sécurité à 100% contre le spam et dans tous les cas, la tech­no­lo­gie captcha est associée à une perte de con­vi­via­lité.

Quels sont les dif­fé­rents types de captchas ?

Le concept de captchas repose sur l'hy­po­thèse que, malgré les progrès rapides de la recherche sur l'IA, il existe encore des dif­fé­rences entre la capacité mentale de l'être humain et celle d'un programme in­for­ma­tique. Chaque captcha comprend donc au moins une tâche qui doit être fa­ci­le­ment maîtrisée par les uti­li­sa­teurs humains mais qui, en théorie, re­pré­sente un problème insoluble pour les robots.

Les méthodes basées sur captcha pour la vé­ri­fi­ca­tion humaine peuvent être divisées en plusieurs ca­té­go­ries : re­con­nais­sance de texte et d'image, capture audio, calcul ma­thé­ma­tique, question logique et procédés de lu­di­fi­ca­tion.

Les captchas basés sur du texte

La plus ancienne forme de vé­ri­fi­ca­tion humaine est le captcha textuel. Les mots connus ou les com­bi­nai­sons aléa­toires de lettres et de chiffres sont masqués. Pour réussir le test, l'uti­li­sa­teur doit dé­chif­frer la solution affichée dans la zone captcha et la saisir dans un champ de texte dédié. Les méthodes tra­di­tion­nelles utilisées pour créer des captchas textuels sont Gimpy, ez-Gimpy, Gimpy-r et HIP de Simard.

Le brouil­lage partiel implique dif­fé­rentes étapes au cours des­quelles les ca­rac­tères in­di­vi­duels du mot de la solution sont déformés, changent d'échelle, ou sont courbés et combinés avec d'autres éléments gra­phiques tels que des lignes, des arcs, des points, des dégradés de couleurs ou des bruits de fond. Les il­lus­tra­tions suivantes montrent une sélection de trans­for­ma­tions de texte possibles que l’on peut ren­con­trer sur Internet.

Les captchas de texte n'offrent une pro­tec­tion fiable contre le spam que si le mot de solution affiché re­pré­sente un obstacle in­sur­mon­table pour les pro­grammes avec re­con­nais­sance au­to­ma­tique de texte. Cependant, cela suppose gé­né­ra­le­ment une dé­for­ma­tion, ce qui limite aussi con­si­dé­ra­ble­ment la li­si­bi­lité pour les uti­li­sa­teurs humains.

Ce problème est bien illustré à travers les exemples suivants. Pour en­re­gis­trer une adresse email gratuite chez GMX, on est par exemple confronté à des captchas basés sur du texte selon le schéma suivant.

Un uti­li­sa­teur humain peut fa­ci­le­ment re­con­naître les ca­rac­tères 1VYEJX, mais le code est parfois plus compliqué à lire à cause de ca­rac­tères fortement déformés.

La dé­for­ma­tion va parfois si loin que même les uti­li­sa­teurs humains peuvent être dépassés. En général, un captcha bien mis en œuvre offre la pos­si­bi­lité de sauter la première pro­po­si­tion et d'essayer avec un autre mot, un peu plus lisible. Mais il est évident que ce n’est pas une partie de plaisir pour les visiteurs du site Web qui sont le plus souvent con­fron­tés à des captchas com­pli­qués.

Au fil du temps, de nom­breuses al­ter­na­tives à la tech­no­lo­gie captcha textuelle ont été mises en place. Google offre une variante célèbre de la capture de texte classique avec reCAPTCHA. Au lieu de générer des mots de solution aléa­toires, reCAPTCHA se nourrit de divers projets de nu­mé­ri­sa­tion tels que Google Books ou Google Street View. Par exemple, les uti­li­sa­teurs peuvent afficher des noms de rue, des numéros de maison, des panneaux de sig­na­li­sa­tion routière, des enseignes de ville et des fragments de segments de texte numérisés, qui doivent être dé­chif­frés et saisis dans un champ de texte à l'aide du clavier. Le logiciel offre toujours deux éléments : un élément connu, déjà confirmé et un élément non confirmé. En principe, les uti­li­sa­teurs n'ont qu’à re­con­naître le premier élément afin de compléter le captcha avec succès. Les uti­li­sa­teurs qui dé­chiffrent également le deuxième élément par­ti­ci­pent au programme de nu­mé­ri­sa­tion de Google. Les entrées sont vérifiées sur une base sta­tis­tique. Les éléments décryptés sont toujours présentés à plusieurs uti­li­sa­teurs. La réponse la plus courante est correcte.

L'exemple suivant montre deux requêtes reCAPTCHA de con­cep­tion dif­fé­rente que les uti­li­sa­teurs ren­contrent dans le contexte des en­re­gis­tre­ments com­mu­nau­taires, par exemple.

Les captchas basés sur les images

Les méthodes basées sur l'image cons­ti­tuent une al­ter­na­tive aux captchas de texte. Au lieu de présenter aux uti­li­sa­teurs une solution composée de chiffres et de lettres, les captchas basées sur l'image s'ap­puient sur des éléments gra­phiques qui peuvent être reconnus ra­pi­de­ment. En règle générale, plusieurs motifs sont présentés côte à côte. L'uti­li­sa­teur a la tâche de cliquer sur un certain motif, d'iden­ti­fier des motifs si­mi­laires ou de re­pré­sen­ter une connexion sé­man­tique.

L'exemple suivant montre un captcha basé sur l'image, qui est utilisé dans le service Google reCAPTCHA. L'uti­li­sa­teur est invité à sé­lec­tion­ner toutes les images montrant du café.

Par ailleurs, Google utilise des captchas qui per­met­tent aux uti­li­sa­teurs de ne sé­lec­tion­ner que certaines zones d'une photo, comme tous les champs où des parties d'un panneau de sig­na­li­sa­tion sont affichées. Con­trai­re­ment aux re­CAPT­CHAs textuels, il suffit de cliquer sur les zones d'écran cor­res­pon­dantes pour réussir cette étape de test.

La plupart des uti­li­sa­teurs iden­ti­fient la solution d'un captcha basé sur l'image en quelques clics. Cependant, la capacité des pro­grammes in­for­ma­tiques à iden­ti­fier une image, à la clas­si­fier avec des mots, et à repérer des motifs si­mi­laires est encore très limitée au­jour­d'hui. On considère donc que les captchas à base d'images ont un effet pro­tec­teur plus élevé que les méthodes tex­tuelles.

Les captchas audio

Des captures de texte et d'images peuvent être affectées aux pro­cé­dures de vé­ri­fi­ca­tion graphique humaine. L'ap­ti­tude d'un uti­li­sa­teur humain à réussir cette étape de test dépend de sa capacité à re­con­naître les in­for­ma­tions tex­tuelles ou ico­no­gra­phiques. Pour les personnes ayant une dé­fi­cience visuelle, un captcha graphique peut cons­ti­tuer un obstacle in­sur­mon­table. Les captchas, qui ne peuvent être perçus que par l'un des sens humains, pré­sen­tent donc une faible usabilité et ne sont pas con­si­dé­rés comme étant sans obstacle. Les ex­ploi­tants de sites Web utilisant des captchas devraient donc s'assurer que la méthode d'essai choisie offre aux uti­li­sa­teurs de multiples solutions sur dif­fé­rents canaux sen­so­riels.

Afin de permettre aux personnes mal­voyantes d'accéder aux zones protégées par captcha d'une ap­pli­ca­tion Web, les méthodes de test basées sur du texte ou de l'image sont gé­né­ra­le­ment combinées avec des captchas audio. Souvent, il s’agit d’un bouton avec lequel les uti­li­sa­teurs peuvent écouter un en­re­gis­tre­ment audio, par exemple une courte séquence de chiffres, qui doit ensuite être tapée dans un champ prévu  cet effet.

Google im­plé­mente ac­tuel­le­ment des captchas audio de la façon suivante :

Afin de garantir une grande facilité d'uti­li­sa­tion du captcha, le son en­re­gis­tré doit être com­pré­hen­sible et adaptée à la langue de l'uti­li­sa­teur. Google n'est pas un bon modèle pour cela. Bien que l'in­ter­face graphique du captcha puisse s’afficher en français, il est seulement possible de jouer un son anglais.

Captchas ma­thé­ma­tiques et logiques

Une al­ter­na­tive captcha, qui prend également en compte les besoins des mal­voyants, s'appuie sur des tâches ma­thé­ma­tiques ou des énigmes pour filtrer les robots spammeurs. Une tâche comme celle de l’exemple ci-dessous peut également être lue avec un lecteur d'écran si né­ces­saire et est donc également dis­po­nible pour les uti­li­sa­teurs via des pé­ri­phé­riques de sortie non visuels.

Les tâches ma­thé­ma­tiques simples ne re­quiè­rent en général que des con­nais­sances scolaires de base, mais elles ne cons­ti­tuent pas un gros obstacle pour les robots spammeurs, car les or­di­na­teurs sont clai­re­ment su­pé­rieurs aux humains dans le trai­te­ment des chiffres. Ce type de capcha est donc souvent combiné avec les dif­fé­rentes pos­si­bi­li­tés de dé­for­ma­tion du texte, mais ceci élimine l'ac­ces­si­bi­lité pour les lecteurs d'écran. Il devient beaucoup plus difficile pour les pro­grammes si le résultat du calcul n'est pas demandé sous forme de chiffre, mais sous forme de mot numérique ou s’il est suivi d’une consigne (Exemple : calculer 7 x 7 et entrer le premier chiffre du résultat dans le champ prévu à cet effet). Le résultat du calcul serait 49, mais la solution captcha 4.

En plus des tâches ma­thé­ma­tiques, des tâches logiques ou des questions de culture générale sont également utilisées dans les captchas, souvent avec une référence thé­ma­tique à l'ap­pli­ca­tion Web cor­res­pon­dante.

Les captchas logiques com­pren­nent des questions qui peuvent sembler in­sig­ni­fiantes aux uti­li­sa­teurs humains. Cependant, les robots spammeurs clas­siques ne sont gé­né­ra­le­ment pas en mesure d'établir les rai­son­ne­ments suivants :

Nommez toutes les couleurs de la liste : pomme, vert, orange, tomate, jaune. (Réponse : vert, orange, jaune)

Entrez le quatrième mot de cette phrase. (Réponse : mot)

Quelle est la troisième lettre de l'avant-dernier mot ? (Réponse : r)

Combien de pis a une vache ? (Réponse : un)

Les captchas de ce type sont gé­né­ra­le­ment conçus de sorte que plusieurs variantes (par exemple ma­jus­cules et mi­nus­cules) con­dui­sent au résultat souhaité.

La lu­di­fi­ca­tion dans les captchas

Les opé­ra­teurs de sites Web qui redoutent d'ef­frayer leurs visiteurs avec des captchas de texte cryptés ou des tâches ma­thé­ma­tiques ardues peuvent profiter de la tendance du jeu qui s’empare des captchas. Des four­nis­seurs tels que Sweet­Capt­cha et Fun­Capt­cha offrent des mini-jeux plus ou moins di­ver­tis­sants qui peuvent être intégrés sous forme de captchas ludiques.

Sweet­Capt­cha s'appuie sur la capacité des uti­li­sa­teurs à s'as­so­cier avec les autres et leur propose des jeux simples. Dans l'exemple suivant, il suffit de déplacer les baguettes sur le tambour pour s’iden­ti­fier en tant qu'être humain.

Sweet­Capt­cha utilise également une variante classique de puzzle captcha, dans laquelle les uti­li­sa­teurs doivent glisser et déposer des éléments d'image dans la bonne position :

Fun­Capt­cha fait pivoter les images. Ce n'est que lorsque le motif est dans la bonne position que le logiciel que l’uti­li­sa­teur peut accéder au contenu du site.  

Sans être par­ti­cu­liè­re­ment di­ver­tis­sant, ce petit jeu est toutefois plus amusant qu’un texte déformé.

Quels sont les avantages et in­con­vé­nients des captchas ?

Si un captcha est capable de bloquer les robots spammeurs de façon fiable, mais permet l’accès aux uti­li­sa­teurs humains, c’est une charge d'ad­mi­nis­tra­tion con­si­dé­ra­ble­ment réduite pour la gestion d'un site Web. Les ex­ploi­tants de sites qui offrent du contenu généré par l'uti­li­sa­teur n’ont donc pas besoin de vérifier ma­nuel­le­ment les con­tri­bu­tions. En outre, c’est un sou­la­ge­ment con­si­dé­rable pour un serveur si les entrées et requêtes au­to­ma­tiques sont bloquées avant que ces réactions gour­mandes en res­sources ne dé­clenchent le système. Mais qu'est-ce qui fait un bon captcha ?

La recherche sur l'in­tel­li­gence ar­ti­fi­cielle progresse ré­gu­liè­re­ment. La capacité des pro­grammes spé­cia­li­sés à lire des textes déformés ou à résoudre des tâches logiques s'amé­liore ra­pi­de­ment. Dès 2014, une équipe de recherche Google a publié une étude, selon laquelle les re­CAPT­CHAs clas­siques peuvent être résolus au­to­ma­ti­que­ment dans 99,8 % des cas. En tant que base de données, 10 millions de numéros de maison annotés ont été utilisés, que l'équipe a générés via Google Street View.

De nombreux four­nis­seurs de captcha tentent de compenser les progrès de l'ap­pren­tis­sage machine par des pro­cé­dures de test de plus en plus dif­fi­ciles. Dans la pratique, les captchas touchent souvent aux limites de l'in­so­lu­bi­lité.

Dès 2010, les cher­cheurs de l'Uni­ver­sité Stanford ont publié une étude  montrant que dans de nombreux cas, les captchas cons­ti­tuent un défi majeur, même pour les uti­li­sa­teurs d'In­ter­net. Dans cette étude, on a demandé à plus de 1 100 personnes de résoudre environ 318 000 captchas des schémas les plus cou­ram­ment utilisés à l'époque.

En moyenne, les par­ti­ci­pants testés ont répondu aux captchas visuelles en 9,8 secondes. Pour les captchas audio, les personnes testées ont pris près de trois fois plus de temps avec 28,4 secondes. Si un seul et même captcha visuel a été montré à 3 sujets dif­fé­rents, ils n'ont trouvé la même solution que dans 71% des cas. Pour les captchas audio, la cor­res­pon­dance de 31 % était encore plus faible. De plus, les cher­cheurs ont constaté que les capchas au­dio­nu­mé­riques avaient un taux de rebond de 50 %. La question de savoir si une vé­ri­fi­ca­tion humaine est utilisée et comment elle est réalisée a un effet sur la mo­ti­va­tion d'un visiteur à interagir avec le site Web en question.

Dès 2009, la société SaaS MOZ a publié un article de blog à ce sujet sur l'effet des captchas sur les taux de con­ver­sion des for­mu­laires Web. Dans une étude de cas, l'auteur de YouMoz Casey Henry a enquêté sur plus de 50 sites Web d'en­tre­prise dif­fé­rents sur une période de 6 mois et a constaté que les taux de con­ver­gence des for­mu­laires en ligne (par exemple dans les abon­ne­ments à la news­let­ter) ont chuté de 3,2 % en moyenne si les captchas étaient activés. Cependant, le volume de spam a également été réduit de 88%.

Les en­tre­prises qui génèrent des revenus en per­met­tant aux in­ter­nautes d'in­te­ra­gir sur le site Web devraient se demander si un taux de rebond de cette ampleur est ac­cep­table. Ici, les coûts des méthodes al­ter­na­tives de lutte contre le spam doivent être compensés par la perte de revenus des captchas.

Captchas et ac­ces­si­bi­lité

Le choix d'une tech­no­lo­gie captcha adaptée devient difficile pour les ex­ploi­tants de sites Web qui sou­hai­tent rendre leurs offres Internet ac­ces­sibles à tous, y compris aux personnes han­di­ca­pées.

La plupart des personnes han­di­ca­pées utilisent Internet. Les pos­si­bi­li­tés du World Wide Web pro­met­tent souvent de rendre la vie quo­ti­dienne beaucoup plus facile, en par­ti­cu­lier pour les in­ter­nautes qui passent leur vie avec des res­tric­tions. Cependant, la plupart des services en ligne ne sont toujours pas ac­ces­sibles aux personnes han­di­ca­pées. Les captchas re­pré­sen­tent aussi souvent une barrière in­sur­mon­table, par exemple si la pos­si­bi­lité de vé­ri­fi­ca­tion ne peut pas être perçue en raison d'une acuité visuelle limitée ou d'un handicap mental.

Les Web Content Ac­ces­si­bi­lity Gui­de­lines (WCAG) de la Web Ac­ces­si­bi­lity Ini­tia­tive (WAI) du World Wide Web Con­sor­tium (W3C) s'at­ta­quent au problème de l'ac­ces­si­bi­lité sous l’angle des captchas et spé­ci­fient les points suivants comme exigences minimales pour un captcha ac­ces­sible :

  • Si du contenu autre que du texte (par exemple des gra­phiques) est utilisé pour dis­tin­guer les uti­li­sa­teurs humains des pro­grammes in­for­ma­tiques, il convient de fournir une al­ter­na­tive textuelle pour expliquer l'objet du contenu non textuel.
  • Si la tech­no­lo­gie captcha est utilisée, elle devrait être conçue de sorte qu'il existe des solutions al­ter­na­tives qui tiennent compte des dif­fé­rentes formes de handicap.

Au-delà de ces exigences minimales, il est conseillé d'in­té­grer toujours les captchas dans un texte d'ac­com­pag­ne­ment ex­pli­ca­tif. Les ex­ploi­tants de sites Web qui utilisent des captchas comme moyen de pré­ven­tion du spam devraient s'assurer que les in­ter­nautes com­pren­nent la façon dont ils peuvent s’iden­ti­fier en tant qu'uti­li­sa­teurs humains. Ceci inclut des ins­truc­tions claires pour le test de Turing pré­sen­tées sous forme de texte lisible par des machines et des champs de saisie cor­rec­te­ment iden­ti­fiés. Dans tous les cas, les uti­li­sa­teurs devraient être en mesure de sauter les captchas il­li­sibles et de répéter la vé­ri­fi­ca­tion avec un nouveau captcha si leur pro­po­si­tion est in­cor­recte.

De plus, un captcha ne devrait jamais être la seule façon d'uti­li­ser un site Web. Il est re­com­mandé de toujours proposer aux uti­li­sa­teurs la pos­si­bi­lité d'être admis sur un site Web en con­tac­tant l'ad­mi­nis­tra­teur ou le service client. Il est également re­com­mandé de réduire au minimum l'uti­li­sa­tion des captchas. Si un uti­li­sa­teur s'est déjà connecté avec succès au système, aucune autre vé­ri­fi­ca­tion sous forme de captchas ne doit avoir lieu.

Existe-t-il des al­ter­na­tives aux captchas ?

Même si les captchas sont om­ni­pré­sents au­jour­d'hui, les pro­cé­dures basées sur le test de Turing ne sont en aucun cas la seule façon de sécuriser un site Web in­te­rac­tif contre le spam. Dès 2005, le WAI a publié la Working Group Note 23. Avec Inac­ces­si­bi­lity of CAPTCHA – Al­ter­na­tives to Visual Turing Tests on the Web, le WAI a développé un catalogue de pro­po­si­tions pour la pré­ven­tion du spam sans captcha. Au fil du temps, de nom­breuses méthodes ont été mises au point pour iden­ti­fier les requêtes ou les entrées au­to­ma­tiques :

  • Black lists : si une certaine source peut être iden­ti­fiée pour des messages spam ou des requêtes au­to­ma­ti­sées en masse, les ex­ploi­tants de sites Web ont la pos­si­bi­lité de bloquer toutes les in­te­rac­tions en pro­ve­nance de cette adresse en les ajoutant à la black list, c’est-à-dire liste noire. Il s'agit d'une liste qui rassemble tous les serveurs ou adresses IP à bloquer pour de futures requêtes. Une telle liste noire peut être créée ma­nuel­le­ment via .htaccess. Il existe également dif­fé­rents réseaux anti-spam et four­nis­seurs de services pro­fes­sion­nels sur Internet qui offrent des listes noires cen­tra­li­sées et cons­tam­ment mises à jour.
     
  • Honeypots : certains ex­ploi­tants de sites Web exposent les candidats po­ten­tiels à la liste noire en envoyant des for­mu­laires en ligne avec des pièges à spam. Ces dis­po­si­tifs d’appât, qui sig­ni­fient lit­té­ra­le­ment pot de miel, cor­res­pon­dent à des champs de saisie cachés aux in­ter­nautes par CSS ou Ja­vaS­cript. Les robots spammeurs simples ne lisent gé­né­ra­le­ment que le code HTML d'un site Web et rem­plis­sent même des champs cachés avec du contenu généré au­to­ma­ti­que­ment. Ceci indique donc clai­re­ment que la demande émane d’un robot et non d’un d'uti­li­sa­teur humain.
     
  • Filtre de contenu : les filtres de contenu offrent un moyen de contrer le spam de com­men­taires sur les blogs, dans les boutiques en ligne ou les forums. Ils fonc­tion­nent également avec les listes noires. Les ex­ploi­tants de sites Web dé­fi­nis­sent ce que l'on appelle les hot words, des mots-clés qui ap­pa­rais­sent prin­ci­pa­le­ment dans les com­men­taires de spam afin d'iden­ti­fier au­to­ma­ti­que­ment les entrées suspectes comme étant générées par or­di­na­teur. Cependant, si des filtres de contenu sont utilisés, il y a un risque accru que les con­tri­bu­tions des uti­li­sa­teurs humains soient également bloquées si ces mots-clés de la liste noire sont inclus.
     
  • Le filtrage côté serveur : sur la plupart des serveurs Web, le logiciel de filtrage est utilisé pour détecter les in­te­rac­tions visibles avec certaines zones d'un site Web, limitant ainsi les dommages causés par les robots spammeurs. Les filtres anti-spam s'ap­puient sur des analyses statiques, heu­ris­tiques et com­por­te­men­tales pour iden­ti­fier les in­te­rac­tions suspectes basées sur des ca­rac­té­ris­tiques visibles et des modèles connus. Les analyses dans le cadre du filtrage des spams se réfèrent aux ca­rac­té­ris­tiques tech­niques de l'agent uti­li­sa­teur. Par exemple, l'étendue des données, l'adresse IP, les méthodes de saisie des données utilisées, ainsi que les données de signature et les sites Web visités pré­cé­dem­ment sont évalués. En outre, on peut utiliser des ho­ro­da­tages pour suivre le temps écoulé entre la remise d'un for­mu­laire en ligne et la réception de la réponse. Con­trai­re­ment aux uti­li­sa­teurs humains, les robots spammeurs font preuve d’une vitesse con­si­dé­rable lors­qu'ils rem­plis­sent les champs de saisie.

Il existe une al­ter­na­tive courante au captcha classique, basée sur des analyses com­por­te­men­tales, provenant également de Google. Sous le nom de "No CAPTCHA reCaptcha", Google propose depuis 2013 un service de vé­ri­fi­ca­tion humaine qui protège ef­fi­ca­ce­ment les sites in­te­rac­tifs contre les abus et dans la plupart des cas, sans captcha.

Au lieu de proposer aux uti­li­sa­teurs une tâche basée sur des con­nexions visuelles, auditives ou logiques, le dernier reCAPTCHA de Google ne comporte qu'une simple case à cocher.

Si un uti­li­sa­teur coche la case "Je ne suis pas un robot", le logiciel vérifie en arrière-plan avec quelle pro­ba­bi­lité il s'agit d'une saisie au­to­ma­tique. Google s'appuie sur une analyse avancée des risques. Les étapes de test de cet al­go­rithme sont tenues secrètes par Google. Cependant, les ca­rac­té­ris­tiques suivantes sont discutées dans le réseau :

  • Les cookies ;
  • L’adresse IP ;
  • Les mou­ve­ments de souris dans la zone de la case à cocher ;
  • La durée.

Si le logiciel conclut que l'uti­li­sa­teur est un être humain, celui-ci peut accéder à la page souhaitée. En revanche, si le résultat de l'analyse conclue à un risque élevé de spam, il est né­ces­saire d’avoir recours à un captcha. No captcha est donc une procédure de test pré­li­mi­naire qui évalue si la vé­ri­fi­ca­tion par le biais du Turing Test est né­ces­saire ou peut être ignorée. Ceci est pratique pour l'uti­li­sa­teur en termes d'er­go­no­mie, mais pose des problèmes de pro­tec­tion des données.

Les ex­ploi­tants de sites Web qui utilisent le nouveau reCAPTCHA trans­met­tent au­to­ma­ti­que­ment les données de tran­sac­tion Google à leurs uti­li­sa­teurs. Les uti­li­sa­teurs doivent donc être ex­pli­ci­te­ment informés dans la dé­cla­ra­tion de pro­tec­tion des données que des logiciels tiers sont utilisés dans le cadre de la pré­ven­tion des spams.

Il est également frappant de constater que Google indique les con­di­tions générales d'uti­li­sa­tion et une dé­cla­ra­tion de con­fi­den­tia­lité globale pour le nouveau reCAPTCHA. Ceci vaut également pour tous les autres services Google. Il n'est donc pas exclu que l'en­tre­prise utilise également les données col­lec­tées au-delà de la pré­ven­tion du spam pour optimiser ses propres services, par exemple dans le domaine de la publicité. Ce problème est abordé dans un article du magazine en ligne Business Insider.

En janvier 2017, la page d'accueil du projet reCaptcha de Google annonce, avec Invisible reCAPTCHA un dé­ve­lop­pe­ment du No CAPTCHA reCAPTCHA, qui fonc­tionne sans case à cocher.

En théorie, le reCAPTCHA invisible fonc­tionne comme suit : lorsqu'un uti­li­sa­teur remplit un for­mu­laire en ligne, divers processus d'analyse se déroulent en arrière-plan. Toutefois, Google a jusqu'à présent gardé le silence au sujet de ces processus.

Aller au menu principal