- 73 % des visiteurs de sites e-commerce ont de très fortes chances de ne pas être de vraies personnes, mais des bots sophistiqués
- Les outils d’analyse standards distinguent difficilement ce trafic bot, ce qui fausse l’analyse des performances publicitaires et le calcul du ROI marketing
- Bots d’engagement (Engagement Bot), bots d’abandon de panier (Cart Abandonment Bot), bots de trafic issu des réseaux sociaux : ils imitent avec précision diverses activités sur les sites web
- Une partie du trafic bot relève de la collecte de données ou d’une automatisation légitime, mais une proportion importante vise la fraude publicitaire ou la manipulation des indicateurs internes
- Le problème ne se limite plus à quelques sites : il devient un enjeu sectoriel vaste et systémique
Le début du problème : le mystère d’un taux de conversion de 0,1 %
- Le site d’un client e-commerce enregistrait 50 000 visiteurs par mois, mais seulement 47 ventes réelles
- Sur des plateformes comme Google Analytics, les données semblaient très positives, mais leur corrélation avec le chiffre d’affaires réel était faible
- Malgré 4 000 dollars dépensés chaque mois en publicité, la croissance et les revenus n’étaient pas du tout proportionnels
- Contrairement à l’hypothèse initiale d’un problème lié au produit, l’analyse directe des données de trafic du site a permis de détecter des signaux anormaux
- Pour comprendre le problème, un script de suivi a été développé afin d’observer les comportements des utilisateurs réels
Première enquête : un suivi pour vérifier la vérité du trafic
- Développement d’un outil de suivi observant les schémas de comportement réels plutôt qu’un simple comptage des clics
- Déplacement de la souris : analyse de courbes naturelles vs. trajectoires rectilignes mécaniques
- Schémas de défilement : vitesse variable avec arrêts/retours en arrière vs. défilement mécanique parfaitement constant
- Intervalles entre interactions : mesure de la variabilité temporelle entre clics, survols et ajouts au panier
- En une semaine, il a été confirmé que le trafic non humain (Non-human) représentait pas moins de 68 %
- Il ne s’agissait pas de spam classique, mais majoritairement de bots subtils conçus pour tromper les outils d’analyse
L’extension du problème : non pas un cas isolé, mais un phénomène sectoriel
- Dans des forums marketing et des groupes Discord, la question a été posée à d’autres opérateurs e-commerce : « Avez-vous déjà constaté un écart entre trafic et ventes ? »
- Après avoir obtenu l’autorisation d’installer le script de suivi sur plus de 200 sites e-commerce petits et moyens, une enquête de 6 mois a confirmé qu’en moyenne 73 % du trafic était faux (bot)
- Il s’agit non d’un problème individuel, mais d’un enjeu structurel à l’échelle de l’écosystème du commerce numérique
La structure de la fraude publicitaire moderne (Ad Fraud) : analyse par type de trafic
-
Bots d’engagement (Engagement Bot)
- Bots conçus pour améliorer l’apparence des rapports analytiques, en simulant le comportement de visiteurs de qualité
- Ils réalisent des interactions complexes : défilement de page, survol du curseur sur les produits, clics sur des liens internes, etc.
- Défaut critique : une cohérence parfaite
- Sur chaque page de description produit, ils restent exactement 11 à 13 secondes
- La vitesse de défilement reste toujours constante à 3,2 pages par seconde
- Le comportement humain est irrégulier, alors que ces bots sont d’une précision clinique
-
Bots d’abandon de panier (Cart Abandonment Bot)
- Ils ajoutent le même produit au panier, le conservent 4 minutes, puis l’abandonnent, en répétant le processus des dizaines de fois par jour
- Répétés via différentes IP et sessions, ils peuvent viser à fausser volontairement des indicateurs e-commerce clés comme le taux d’abandon de panier, ou à manipuler des algorithmes de recommandation internes
-
Bots de visiteurs fantômes issus des réseaux sociaux (Phantom Social Media Visitor)
- Un trafic qui apparaît dans les outils d’analyse comme venant d’Instagram, TikTok, etc.
- Environ 64 % d’entre eux attendent exactement 1,8 seconde après l’arrivée sur la page avant de repartir
- Ils rebondissent immédiatement sans scroll ni clic, tout en étant comptabilisés comme « visiteurs issus des réseaux sociaux »
- Élément central de la fraude publicitaire : un moyen pour les vendeurs de faux engagement de « prouver » l’envoi de trafic
Tous les bots ne sont pas malveillants : le scraping légitime de données
- Information fournie par un acteur interne du secteur des données e-commerce : 70 millions de pages web retail scrapées par jour
- Objectifs légitimes de business intelligence
- Les grands distributeurs comme Amazon n’informent pas toujours les vendors en cas de rupture de stock
- Les marques paient des services de data scraping pour surveiller leurs propres produits
- Vérification des niveaux de stock, analyse de la concurrence sur la buy box, contrôle de l’exactitude des descriptions produit
- Suivi du classement des résultats de recherche selon les régions et les appareils mobiles
- Analyse des bannières publicitaires selon les audiences ciblées
- Selon une vidéo de Kurzgesagt, près de 50 % de l’ensemble du trafic Internet provient de bots
- Une partie relève d’une analyse concurrentielle et d’un suivi des prix légitimes, mais une large part correspond à un trafic frauduleux qui épuise les budgets publicitaires
L’économie effondrée de la publicité numérique
- Un client dépensait 12 000 dollars par mois sur Google Ads
- Après la mise en place d’une détection et d’un filtrage avancés du trafic bot :
- Le trafic déclaré a chuté de 71 %
- Le CFO a d’abord été choqué
- Mais le chiffre d’affaires réel a augmenté de 34 %
- Les efforts réels d’optimisation du taux de conversion (CRO) fonctionnaient depuis le départ, mais ils étaient noyés sous une avalanche de faux clics
- Des milliers de dollars étaient gaspillés à faire de la publicité auprès de robots programmés pour ne jamais acheter
- Le ROI marketing est immédiatement passé de « catastrophique » à « excellent »
-
Réaction des plateformes publicitaires
- Lors des échanges avec de grandes plateformes publicitaires, l’attitude changeait brusquement dès que la fraude au clic ou le trafic bot étaient mentionnés
- « Notre détection par IA est la meilleure du secteur »
- « Nous prenons la fraude publicitaire très au sérieux »
- Un responsable a reconnu officieusement : « Tout le monde est au courant »
- « Si on filtrait correctement, les revenus baisseraient de 40 % du jour au lendemain et les investisseurs paniqueraient »
- Conflit d’intérêts massif : les plateformes publicitaires gagnent de l’argent au clic ou à l’impression, qu’il s’agisse d’un client potentiel ou d’un serveur de ferme à clics
Faites-vous de la publicité à des robots ? Guide pratique de détection du faux trafic
-
1. Audit des pics de trafic vs. données de ventes
- Un pic de trafic correspond-il à un pic de ventes ?
- Si le trafic double pendant une promotion mais que les ventes stagnent, la probabilité d’un trafic frauduleux est élevée
-
2. Analyse des métriques de comportement utilisateur
- Chercher des chiffres « trop parfaits »
- Le « temps moyen passé sur la page » des principales landing pages est-il inquiétamment stable d’un mois à l’autre ?
- Le comportement humain réel est irrégulier et variable
-
3. Segmentation des données géographiques
- Une part importante du trafic vient-elle de pays où vous ne livrez pas ?
- Si ces visiteurs ne convertissent pas, c’est un signal fort de trafic de mauvaise qualité ou factice
-
4. Enquête sur les sources de referral
- Analyser en détail les principales sources de trafic
- Si les sites référents semblent hors sujet ou de mauvaise qualité, ils peuvent faire partie d’un réseau d’échange de trafic
- Rechercher des « ghost referrals » où aucun lien réel vers le site n’existe
-
5. Faire confiance à son intuition
- Si les chiffres paraissent anormaux, il y a de fortes chances qu’un vrai problème existe
- L’intuition d’un dirigeant qui connaît sa base client est un outil précieux de détection des bots
Conclusion brutale : un château de sable numérique
- Un fondateur de startup a levé 2 millions de dollars en s’appuyant sur des indicateurs de « croissance des utilisateurs »
- Il a découvert plus tard que 80 % de ces indicateurs provenaient de bots
- Aujourd’hui, reconnaître la vérité pourrait mettre en péril l’entreprise et la relation avec les investisseurs, si bien que tout le monde fait semblant que tout va bien
-
L’économie cachée des bots
- Les plateformes publicitaires vendent des impressions à des bots
- Des entreprises achètent du faux trafic pour gonfler leurs indicateurs
- Les sociétés d’analyse rapportent consciencieusement cette activité de bots
- Tout le secteur participe à une mascarade collective, par crainte qu’admettre la vérité ne fasse s’effondrer un système fragile
-
Perspective finale
- Plus de la moitié d’Internet est une illusion, une mise en scène numérique où des bots jouent pour d’autres bots
- Cette proportion augmente chaque jour à mesure que l’IA et l’automatisation gagnent en sophistication
- La question n’est plus : « Votre entreprise est-elle concernée ? »
- La vraie question est : « Que se passera-t-il lorsque ce château de sable numérique finira par s’effondrer ? »
2 commentaires
Désormais, en plus des bots headless, des bots agents comme
comet browserapparaissent aussi, ce qui rend la détection encore plus difficile.Commentaires sur Hacker News
Je dirige une agence marketing, et comme les données analytics d’un client n’avaient absolument aucun sens (50 000 visiteurs pour 47 ventes), j’ai commencé à creuser sérieusement. J’ai donc analysé plus de 200 sites e-commerce petits et moyens en suivant le comportement des utilisateurs avec un script simple. En moyenne, 73 % du trafic total était du trafic de bots que les outils d’analytics standards comptabilisaient pourtant comme de vrais visiteurs. Les bots sont désormais incroyablement doués pour imiter un comportement humain. J’ai aussi rassemblé les schémas étranges que j’ai observés moi-même ainsi que des échanges officieux avec des personnes du secteur adtech. Ce qui est frappant, c’est que ce trafic de bots est un secret de Polichinelle que tout le monde connaît sans jamais en parler franchement. On a l’impression que tout le système tourne grâce à ces bots. Je serais curieux de savoir si d’autres développeurs, fondateurs ou marketeurs ont déjà vu des données présentant le même genre d’écart
Quand je travaillais autrefois pour les pages jaunes suisses, il y avait un tableau de bord où les clients payants pouvaient voir le nombre de visiteurs de la page de leur entreprise. Quand notre équipe de développement a filtré le trafic de bots, les chiffres ont chuté de plus de 50 %. En moins d’une journée, l’équipe business nous a demandé de retirer le filtre. Au final, les bots étaient donc traités comme de vraies personnes
En réalité, même si tout cela est de la fraude, est-ce que ça a vraiment de l’importance ? S’il y a eu 47 achats réels, on peut regarder combien la publicité a coûté sur la période et comparer avec les données avant et après pour juger si la campagne a été un succès. Pour l’affichage ou la pub dans les bus aussi, on ne sait pas vraiment qui regarde ni si ce sont de vraies personnes. Ce qui compte au bout du compte, c’est l’impact réel dans les chiffres
Je fais du conseil en web analytics, et en 2021 j’ai enquêté sur des schémas de trafic étranges chez une entreprise mondiale de logistique. J’en ai fait un résumé sur mon blog dans cet article. Le problème du trafic de bots existe depuis longtemps, et même s’il y a beaucoup de nouveaux « services de détection de fraude publicitaire » censés le bloquer, j’ai rarement vu quelque chose de réellement utile. La question « comment résoudre ça ? » revient toujours à la fin, mais personne ne sait comment arrêter parfaitement les bots. La plupart des annonceurs utilisent les grandes plateformes comme Google, Facebook, Instagram, TikTok ou LinkedIn, et il n’existe pas vraiment de réseau publicitaire alternatif avec peu de bots. Tout le monde sait qu’une partie du trafic est fausse, mais continue quand même à l’acheter. Pour que la situation change, il faudrait que les géants de la tech qui gagnent des milliards grâce à la publicité aient un plus grand intérêt à changer le système qu’à le maintenir. Pour l’instant, ils n’en ressentent même pas le besoin. « La moitié de l’argent que je dépense en publicité est gaspillée. Le problème, c’est que je ne sais pas quelle moitié. » - John Wanamaker
La partie sur le trafic des « bons bots » était intéressante. Pendant mon enquête, quelqu’un du secteur de la donnée m’a donné un très gros indice : son entreprise scrape 70 millions de pages produits retail par jour. C’est une source gigantesque de trafic de bots légitime. Par exemple, Amazon n’informe pas les fournisseurs quand un stock est épuisé, donc les marques utilisent des services de scraping pour suivre l’état des stocks de leurs produits, la concurrence sur la Buy Box, la qualité des descriptions produit, le classement dans les recherches, et même quelles bannières publicitaires sont montrées à quelles audiences. Même ces « bons bots » peuvent être jugés différemment selon le point de vue. Je n’aime pas que des concurrents scrapent mon site, mais je trouve normal de collecter des données de marché moi-même. Si quelqu’un l’a programmé et l’exécute, c’est un bot qui lui profite. Les créateurs de contenu voient mal le scraping pour l’IA, alors que ceux qui développent l’IA y voient quelque chose de positif. Les comparateurs de prix trouvent leurs propres crawlers légitimes, tandis que les retailers les détestent. Le trafic de bots est « bon » ou « mauvais » selon le point de vue adopté
Je suis d’accord avec l’idée que tout le système repose sur les bots. Je n’ai jamais été particulièrement rebelle, mais une part de l’optimisme des débuts d’Internet en moi aimerait voir le modèle publicitaire s’effondrer. En vérité, même quand la publicité fonctionne « normalement », elle a toujours eu quelque chose d’intrinsèquement exploiteur et manipulateur. Par exemple : « si tu n’achètes pas absolument ce produit, tes amis vont te rejeter »
Le style de cet article est intéressant. Le motif « ce n’est pas simplement X... », les passages en gras, les listes à puces, tout ça ressemble beaucoup à un style ChatGPT qu’on voit partout. Bien sûr, il n’y a aucun problème à se faire aider par ChatGPT, mais le contenu de l’article a ironiquement une écriture qui fait très IA. Si l’auteur écrit naturellement comme ça, cela voudrait peut-être dire que ChatGPT a été ajusté sur ce style. Je me demande si la communication dans l’adtech est vraiment comme ça
Au contraire, la vraie ironie ici, c’est que ce texte est un exemple d’être humain utilisant correctement un « langage structuré », mais qu’il est pris à tort pour un texte d’IA à cause de sa surface. Dire « ce n’est pas X, c’est Y », c’est une structure très intentionnelle visant à faire changer le lecteur de perspective, parce qu’on sait qu’il s’attend à X. Quand le texte dit « je n’ai pas seulement compté les clics, j’ai observé le comportement » ou « ce ne sont pas juste des bots qui entrent et sortent du site, ce sont des bots qui imitent le comportement humain », l’objectif est justement de distinguer clairement l’attendu du réel. Étudier la différence entre les marqueurs de style IA et une écriture humaine qui a du sens pourrait être passionnant. J’ai même l’impression que plus tard on pourrait voir apparaître ce genre de distinction IA/humain dans l’enseignement supérieur ou le recrutement
J’ai perdu tout intérêt au passage « tout a commencé par un problème simple mais fatal ». Ensuite, la formulation « j’ai ressenti quelque chose d’étrange et de dérangeant » m’a aussi fait décrocher. En plus, l’auteur semble au final vendre un outil publicitaire à côté
Ce genre de texte paraît d’autant plus ironique. Le bon côté, c’est que les gens savent désormais repérer rapidement ce type d’écrits superficiels et les ignorer. Les startups veulent échouer vite, moi je veux surtout détecter vite le contenu généré par IA et passer à autre chose
J’ai repéré les signes de style IA immédiatement et je suis descendu tout de suite dans les commentaires. Quand un texte ressemble manifestement à un contenu généré par IA, c’est le signe que l’auteur ne l’a pas vraiment écrit ou édité lui-même, donc la confiance baisse automatiquement
L’image aussi semble générée par IA, ou au minimum ressemble à un clipart mal assorti
J’ai travaillé 15 ans dans l’adtech, et je pense que les grands groupes comme Google/FB trompent aussi les utilisateurs. Ils ne permettent pas le double tracking et demandent qu’on se fie uniquement à leurs chiffres. Et quand on regarde les IP des clics, on voit souvent des IP de datacenters FB/Google. En pratique, le trafic venant de là sert aussi à faire passer pour une performance publicitaire des utilisateurs qui auraient de toute façon acheté sur mon site, grâce à des algorithmes. Certaines entreprises essaient vraiment de mesurer l’impact correctement, mais elles sont très rares. Les sites qui diffusent des publicités n’y gagnent rien à part agacer leurs utilisateurs. Les annonceurs dépensent de l’argent sans rien obtenir. Au final, seuls les intermédiaires y gagnent
Quand je fais de la pub Google, c’est un peu comme payer quelqu’un pour distribuer des tracts devant ma boutique. Peut-être que la plupart de mes visiteurs sont venus avec un tract Google, mais impossible de savoir combien sont réellement de nouveaux clients
Facebook Ads et SA360 prennent en charge le tracking tiers, et on peut utiliser toutes sortes d’outils d’analytics tiers. Dire que les IP remontent comme des datacenters FB/Google est beaucoup trop simpliste, et je n’avais jamais entendu ça de ma vie. Les grands groupes n’auraient pas de VPN ? Et la logique selon laquelle ils « voleraient le trafic organique avec un algorithme », je ne la comprends pas. Moi aussi j’ai plus de 10 ans dans le secteur, et ça ne me semble pas crédible. On peut faire 15 ans de métier sans vraiment bien connaître le secteur ni la technologie
J’avais l’impression que, dans le secteur, tout le monde savait déjà que les chiffres de trafic sont largement fictifs et que plus de la moitié des clics publicitaires sont frauduleux. Donc voir l’OP, qui prétend faire de « l’analyse précise des dépenses publicitaires », découvrir cela seulement maintenant manque de crédibilité. Rien de tout cela n’est nouveau, donc je doute un peu qu’il l’apprenne vraiment pour la première fois. En revanche, la partie qui classe différents schémas de bots était intéressante, et je n’avais pas vu de texte aussi détaillé sur ce point
Une partie des gens du secteur le sait depuis longtemps, mais la situation s’aggrave. Ma théorie, après avoir travaillé avec des équipes marketing pendant dix ans, c’est que la plupart croient les chiffres sans esprit critique. Surtout quand la survie de l’équipe dépend de métriques censées croître exponentiellement chaque année, les chiffres gonflés deviennent presque une bonne nouvelle, et si ça ne vend pas, il suffit de mettre ça sur le dos de l’équipe commerciale
Dans ma précédente startup, on a mobilisé énormément de ressources marketing et de développement pour optimiser le funnel de conversion, alors que l’orientation même du business était mauvaise. Si on n’avait pas été entraînés par autant de bruit inutile dans les données, on aurait peut-être pu pivoter plus vite
C’est quelque chose que tout le monde dans le secteur sait depuis plus de dix ans. C’est en partie un article marketing pour datacops
Certains réagissent par « quoi, l’OP découvre ça seulement maintenant ?! », mais cette entreprise (Datacops) semble avoir été lancée récemment. Ils ont probablement publié ce texte au moment de la sortie de leur produit. Référence
47 conversions pour 50 000 visites, à mes yeux, cela donne plutôt l’impression que la part de faux trafic est devenue encore plus énorme. Avant, la moitié était frauduleuse ; maintenant, on a presque le sentiment qu’il ne reste qu’une toute petite minorité de vrais utilisateurs
Si on lance des publicités Facebook et qu’on reçoit un flot de trafic frauduleux, je me demande qui fait tourner ces bots et pourquoi. Facebook pourrait certes avoir un intérêt à le faire, mais s’ils se faisaient attraper, ce serait catastrophique, donc j’ai du mal à y croire. Des concurrents ? Techniquement cela me paraît trop sophistiqué juste pour épuiser mon budget. Est-ce que quelqu’un engage vraiment des gens dans l’ombre pour faire ça ? Une agence pub ? Si les données sont pourries, on demanderait vite à être remboursé, donc ça semble peu probable aussi. Alors qui, et dans quel but ?
Ce sont peut-être simplement des bots qui simulent un comportement de vrais humains. Ils ne cliquent peut-être pas spécialement sur mes pubs ; leur but peut être plus général, imiter indistinctement de vrais utilisateurs
Avec les pubs Facebook, on n’est pas forcément sur un modèle au clic ; il y a aussi des modèles payés à la vente ou à la conversion réelle, ce qui rend les intérêts en jeu plus clairs
Je recommande de regarder le cas methbot. Souvent, l’objectif est le revenu publicitaire : on fait tourner des bots pour tromper les algorithmes, attirer du trafic vers ses propres contenus ou pages, puis faire croire à davantage de vrai trafic humain pour attirer encore plus de budget publicitaire. Structurellement, cela rend le filtrage complet très difficile pour FB/Google
On se dit « quand même, Facebook ne ferait pas ça ? », mais historiquement, faire confiance à l’entreprise sur ce genre de calculs a toujours été une approche naïve. C’est une règle générale valable pour toutes les entreprises. Si le gain attendu dépasse le coût plus le risque d’être pris, elles agissent
Ce n’est pas forcément Facebook directement, et tant que les annonceurs continuent d’acheter de la publicité, il n’y a pas beaucoup d’incitation à se soucier du problème
J’aimerais bien voir le script publié. J’aimerais vérifier si la méthode tient la route, ou si des utilisateurs légitimes avec bloqueur de pub ou JavaScript désactivé ne sont pas pris à tort pour des bots. 73 %, ça ne me surprend même pas ; j’aurais plutôt parié sur davantage. Le passage le plus marquant, c’est que dès qu’on parle de bots ou de fraude au clic avec les équipes commerciales des plateformes pub, la conversation bascule soudain dans un langage d’entreprise très raide. Je me souviens d’un commercial que je connaissais bien qui m’avait avoué off the record : « on le sait tous. On le sait tous, mais si on filtrait vraiment tout correctement, 40 % du chiffre d’affaires disparaîtrait du jour au lendemain et les investisseurs paniqueraient »
Si les incitations des responsables marketing reposent sur des vanity metrics, ils finissent par considérer les problèmes de conversion comme quelque chose qui n’existe qu’en bas de funnel. Même les startups financées par du capital-risque ont clairement intérêt à laisser volontairement des inscriptions de bots pour montrer des chiffres gonflés aux investisseurs
Quand on entend le témoignage « si on filtrait correctement, 40 % du chiffre d’affaires s’évaporerait », on se demande si cela ne devrait pas finir en recours collectif
Au début des années 2000, quand je travaillais dans l’équipe opérations publicitaires de Lycos, j’ai déjà vu des audits internes estimant la part de bots entre 25 % et 75 %. On essayait déjà de l’empêcher à l’époque sans y parvenir, et rien n’a changé. La publicité en ligne est surtout un gaspillage d’argent. On a l’impression qu’elle crée de l’activité économique, mais en réalité elle gaspille du temps et des ressources
Comme l’article ne mentionne pas concrètement les mesures de défense contre les bots, j’ajouterais quelques éléments : renforcer l’anti-bot (CAPTCHA, etc.) augmente fortement l’abandon chez les vrais utilisateurs. L’effet sur le taux de conversion peut être très négatif. Puisque les bots ressemblent de plus en plus à des humains, je pense que le problème doit être traité au niveau de l’analyse et de l’attribution, pas au prix d’une dégradation de l’expérience utilisateur
Voici un cas réel que j’ai vécu
Mais ce qui m’intrigue, c’est comment ce filtrage des bots peut ensuite se traduire directement par une baisse des dépenses publicitaires. Par exemple, est-ce qu’on peut dire explicitement à Google Ads « je refuse de payer pour ce genre de clic » ? Ou bien est-ce que le ciblage a été modifié de manière à éviter les bots ?
On peut imaginer qu’en bloquant le trafic de bots, le retargeting se concentre mieux sur de vraies personnes, ce qui augmente les conversions
J’imagine plutôt que si le filtrage conclut « ça, c’est un bot », alors la publicité ne lui est tout simplement pas montrée
Si des bots se retrouvent dans les audiences Lookalike ou de remarketing, cela envoie de mauvais signaux à des plateformes comme Facebook. Et non, dans Google Ads, on ne peut pas dire qu’on refuse de payer pour tel clic précis
J’avais déjà vu auparavant un article défendant une idée similaire : « le marché de la publicité web est en pratique presque entièrement faux/frauduleux/rempli de bots, et l’ensemble des entreprises et du secteur ne tient que parce qu’on fait semblant de l’ignorer ». Beaucoup d’emplois, d’entreprises et d’industries entières dépendent du fait de ne pas reconnaître cette réalité