1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Le rapport de 44 pages d’EY Canada sur la fraude dans les programmes de fidélité s’est révélé être un document mêlant fausses citations, attributions erronées, statistiques inventées et texte rédigé par IA
  • Dans le tableau des références, la plupart des URL étaient cassées ou fausses, plus de la moitié des titres ne correspondaient pas aux sources réelles, et AI Scan a signalé 72 % du texte comme généré par IA
  • De nombreuses sources attribuées à BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos et TechCrunch menaient à des erreurs 404, des pages de tags ou des documents inexistants
  • Le chiffre de 200 milliards de dollars a été utilisé avec deux sens difficilement conciliables — l’ensemble du marché des points de fidélité et la valeur des points non utilisés — et les deux citations invoquées à l’appui se sont révélées fabriquées
  • Le rapport défectueux a été relayé par le Canberra Times et plus de 60 journaux, tandis que Claude, ChatGPT et Perplexity ont aussi repris ces informations hallucinées

Les problèmes du rapport d’EY Canada

  • EY Canada a publié fin 2025 un rapport de 44 pages sur les cybermenaces et la fraude visant les systèmes de fidélité, Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems
  • Le rapport était crédité à deux associés et un senior manager, mais on y a trouvé à la fois de fausses citations, des attributions erronées, des statistiques inventées et du texte écrit par IA
  • EY Canada est l’entité canadienne d’Ernst & Young, qui fournit chaque année des services représentant plusieurs millions de dollars au gouvernement canadien
  • Le Hallucination Check de GPTZero a été utilisé dans un pipeline automatisé recherchant et scannant des rapports publics de grands cabinets de conseil ces derniers mois, ce qui suggère que le vibe citing s’est propagé jusque dans les rapports de grandes entreprises

Méthode de citation et résultats de la vérification

  • Le rapport d’EY Canada n’utilise ni notes de bas de page ni citations académiques classiques, mais mentionne directement les sources dans le corps du texte ou les regroupe dans une resources table aux pages 41 à 43
  • Ce tableau fournit les titres des sources, des descriptions, des URL, ainsi que parfois l’éditeur et la date, mais la plupart des URL étaient cassées ou fausses, et plus de la moitié des titres ne correspondaient pas aux sources réelles
  • GPTZero définit les citations hallucinées selon des critères précis afin de tenir compte du coût réputationnel des faux positifs, puis vérifie manuellement les résultats de Hallucination Check
  • Le texte du rapport a été signalé à 72 % comme généré par IA par GPTZero AI Scan, et des erreurs typiques de LLM comme de fausses statistiques, des attributions erronées et des contradictions internes s’y répètent

Exemples de sources fausses ou inexactes

  • Article de BleepingComputer sur une compromission de programmes de fidélité de compagnies aériennes

    • Airline Loyalty Breach: BleepingComputer est présenté comme un article affirmant que des millions de comptes de fidélité de compagnies aériennes ont été compromis par des attaques de credential stuffing
    • https://bleepingcomputer.com/news/security/… renvoie une erreur 404, ce qui indique que l’article à cette adresse a été supprimé ou n’a jamais existé
  • Articles de Wired sur les deepfakes vocaux et la sécurité des API

    • AI Voice Deepfakes Targeting Call Centers est présenté comme un article de Wired expliquant comment des attaquants exploitent des voix générées par IA pour détourner des procédures de service client
    • Aucun article Wired correspondant n’existe à l’adresse https://www.wired.com/story/voice-deepfakes-ai-scams/
    • Wired: API Security Gaps est également présenté comme un article sur les vulnérabilités API dans les services numériques grand public, mais https://www.wired.com/story/api-security-risks-retail/ renvoie lui aussi une erreur 404
  • Rapports de Gartner et McKinsey

    • Gartner Market Trends – Loyalty Fraud est présenté comme un guide stratégique sur l’évolution de la fraude dans les programmes de fidélité numériques et les portefeuilles mobiles
    • https://www.gartner.com/en/documents/4000201 redirige seulement vers le site principal de Gartner, et aucun document Gartner portant ce titre n’existe
    • McKinsey & Company – Loyalty Economics Report (2022) est présenté comme un rapport estimant à 200 milliards de dollars la valeur mondiale des points de récompense non utilisés, mais ce rapport n’existe pas
  • Article de Forbes sur l’économie de la fidélité

    • Forbes – The $200 Billion Loyalty Economy est cité pour étayer l’idée que les programmes de fidélité sont des actifs numériques importants
    • L’URL est cassée et, même si Blake Morgan a bien écrit dans Forbes, aucun article ne correspond à ce titre précis
    • Un article de Forbes publié en 2020 utilise toutefois l’expression “$200 billion loyalty economy”
  • Cisco Talos et TechCrunch

    • Cisco Talos: API Attacks on Retail est présenté comme un article sur l’exploitation d’API non sécurisées dans le commerce et les systèmes de fidélité, mais https://blog.talosintelligence.com/api-abuse-retail/ renvoie une 404
    • TechCrunch: Loyalty Program Breaches est présenté comme un article sur des violations de programmes de fidélité et des fuites de données utilisateurs, mais https://techcrunch.com/tag/loyalty-program/ est une page de tag loyalty-program, pas un article précis

Contradiction interne autour de la statistique des 200 milliards de dollars

  • Affirmation du résumé exécutif

    • L’Executive Summary affirme que le marché mondial des points de fidélité représente 200 milliards de dollars, dont 30 à 50 % ne sont pas utilisés
    • Cette affirmation est appuyée par une fausse citation attribuée à Forbes
  • Changement de sens à la page 10

    • À la page 10, le même chiffre de 200 milliards de dollars ne désigne plus la valeur totale mondiale des points, mais une estimation des points de fidélité non utilisés
    • Comme le rapport affirme déjà que jusqu’à 50 % des points ne sont pas utilisés, les deux affirmations ne peuvent tenir simultanément que si le marché mondial des points de fidélité vaut au moins 400 milliards de dollars
  • Traçage de la citation McKinsey

    • Le faux rapport McKinsey & Company mentionné à la page 43 sert de source à la seconde affirmation, selon laquelle la valeur mondiale des points non utilisés atteindrait 200 milliards de dollars
    • Le même chiffre a donc été employé avec deux sens difficilement compatibles, et les deux citations censées l’étayer se sont révélées fabriquées
    • Cette citation McKinsey remonte à un billet de blog fintech de Financial IT publié six mois avant le rapport d’EY
    • Ce billet affirmait que “more than $200 billion in points sit idle each year” et citait dans sa section sources un McKinsey & Company: Loyalty Economics Report (2022) inexistant
    • Cette citation fabriquée a été reprise telle quelle dans le tableau des références du rapport d’EY, blanchissant ainsi comme publication d’un Big Four une fausse source issue d’un blog de faible qualité

Statistiques de 72 % et 89 % avec des sources mélangées

  • Statistique de fraude à 72 % dans les programmes de fidélité

    • À la page 6, le rapport affirme que 72 % des programmes de fidélité clients ont signalé des vols ou des fraudes
    • Ce chiffre est attribué à un article de 2019 de l’entreprise canadienne de traitement des paiements Paystone
    • À la page 11, la même statistique est attribuée au NRF 2020 summary de la société de prévention de la fraude numérique Forter
    • Ni Paystone ni Forter ne figurent dans le tableau des références du rapport, et la source d’origine semble être une enquête Ipsos de 2017
  • Hausse de 89 % des attaques de fraude contre les programmes de fidélité

    • À la page 6, le rapport affirme que les attaques frauduleuses contre les programmes de fidélité ont augmenté de 89 % depuis 2019
    • À la page 11, cette hausse de 89 % est ramenée à une variation sur une seule année, entre 2018 et 2019, et attribuée au Fraud Attack Index de Forter
    • Cette source existe bien et confirme partiellement la seconde version de l’affirmation, mais, comme plusieurs autres sources utilisées dans le rapport d’EY, il s’agit d’un document ancien
    • Des sources contradictoires, des sources de faible qualité, des statistiques anciennes et des reformulations inexactes sont présentées comme des signes d’AI slop

Impact public et risque de contamination des données

  • Points of Attack ne semble pas avoir eu un fort retentissement au Canada, mais il a récemment été cité dans un article du Canberra Times, ensuite diffusé dans plus de 60 journaux australiens
  • Le rapport a peut-être aussi circulé via des briefings clients non publics, des présentations internes et des médias propriétaires
  • Publier un rapport en ligne revient presque à une injection de données dans le réservoir de connaissances d’Internet, et lorsqu’un cabinet de conseil bien connu met en ligne de fausses informations ou des citations hallucinées sur des sites à fort trafic, cela peut induire en erreur les chercheurs par la suite
  • Les outils d’IA de “deep research” choisissent leurs sources à partir de signaux différents de ceux des humains, ce qui peut les rendre encore plus vulnérables à cette contamination des données
  • Claude, ChatGPT et Perplexity ont exposé des informations hallucinées issues du rapport défectueux d’EY

Objectif de Hallucination Check

  • GPTZero estime que le vibe citing constitue désormais un risque concret pour les chercheurs, le monde académique, les consultants et toutes les personnes qui dépendent de la recherche sur le web
  • Hallucination Check est présenté comme un outil permettant d’identifier les citations hallucinées et les fausses informations sans devoir vérifier manuellement toutes les références
  • L’outil est aussi utilisé pour l’examen de soumissions à des conférences académiques comme IJCAI, ICLR et ICSE
  • La conclusion est qu’il devient difficile d’accepter sur la seule base de la confiance même les citations provenant de sources réputées comme Ernst & Young
  • Le lien vers Hallucination Check de GPTZero est fourni

1 commentaires

 
GN⁺ 1 시간 전
Commentaires sur Hacker News
  • Le problème qu’on voit dans de nombreux métiers, c’est que les sorties d’IA ne sont pas correctement relues par des personnes compétentes, comme des analystes expérimentés, des ingénieurs seniors, des avocats spécialisés ou des médecins internes
    Au mieux, elles sont survolées ; au pire, elles ne sont même pas regardées avant publication, diffusion, mise en production, envoi au client ou dépôt au tribunal
    Dans bien des cas, les compétences nécessaires pour cette relecture existent dans l’organisation, mais ces personnes sont déjà débordées par leur charge de travail quotidienne
    Il y a quelques mois, je n’ai pas pu m’empêcher de rire en voyant passer un article selon lequel Amazon faisait relire les sorties d’IA générative par des ingénieurs seniors (https://news.ycombinator.com/item?id=47323017). Ce sont déjà des gens très occupés, et j’ai du mal à croire qu’Amazon accepterait une augmentation des goulots d’étranglement humains sur l’ensemble des projets et du développement de l’infrastructure de base

    • Une partie du problème vient du fait qu’on vous jette un document terminé en vous demandant de le relire seulement une fois qu’il est entièrement cuit
      Je pousse pour qu’il y ait des principes d’ingénierie de base à l’échelle de toute l’organisation
      On ne demande pas à un ingénieur de relire 1 000 lignes de code sans la spécification d’origine expliquant ce qu’on cherche à accomplir. Il faut au minimum du contexte, et idéalement le relecteur devrait être présent dès la première présentation du travail afin de connaître le contexte global
      Or ces documents arrivent en mode tout ou rien. Le 39e indicateur est déjà défini dans le moindre détail jusqu’au bout : est-ce qu’on va vraiment revenir dessus, ou est-ce qu’on va juste se résigner en se disant que c’est déjà comme ça
      Un document d’une page, ou six pages à la manière d’Amazon, du type « voilà ce que je propose », suffirait pour contester et affiner la forme générale d’une idée au stade de l’ossature, avant que n’apparaisse l’investissement émotionnel lié au fait que le précieux rapport est déjà terminé
      C’est comparable à la manière dont, traditionnellement, le produit parcourt les spécifications dans un environnement SCRUM et les ingénieurs font de vraies revues de code. Bien sûr, SCRUM est mort, mais c’est encore une autre histoire
    • Du point de vue d’un avocat, relire des sorties d’IA donne l’impression de prendre plus de temps que de faire le travail soi-même dès le départ. Et par rapport à l’usage de modèles existants, il n’y a même pas photo
      Quand on utilise l’IA, il faut tout relire, expliquer pourquoi c’est faux, et au final il faut souvent tout réécrire
      Le nombre d’heures facturables augmente nettement, mais cela ressemble surtout au symptôme de la disparition du principal avantage mis en avant pour l’IA, à savoir la rapidité et l’accessibilité pour des personnes qui ne comprennent pas le sujet
    • Quand on dit que « les personnes compétentes ne relisent pas les sorties d’IA », on parle bien de ces mêmes personnes qu’on a licenciées et démoralisées ?
      L’une des raisons pour lesquelles les « grands hommes et grandes femmes » aiment le vibe coding, c’est qu’ils ont l’impression de pouvoir désormais faire seuls ce qui, autrefois, exigeait le douloureux processus consistant à « passer la main à des experts du contexte »
      Maintenant que le LLM est devenu un « expert du contexte intégré », ils estiment ne plus avoir besoin de relire les sorties
    • Le problème, c’est qu’il arrive que le temps nécessaire pour valider une sortie soit supérieur au temps qu’il aurait fallu pour la produire soi-même dès le départ
      Dans ce cas, l’IA devient, pour beaucoup d’usages, un système au retour sur investissement fortement négatif
    • Je m’intéresse particulièrement à la formation et à la gestion du savoir humain. J’ai vu la vitesse de formation en IT tomber quasiment à zéro
      Il suffit de penser aux formations professionnelles où une erreur peut finir au journal télévisé du soir
      L’idée même que tout le monde cherche simplement à se couvrir en acceptant sans esprit critique des chaînes de caractères sorties d’une matrice de nombres est glaçante
      Cela rappelle les compagnies aériennes d’Asie du Sud qui ont interdit aux pilotes les atterrissages manuels, favorisant ainsi la perte de compétence, jusqu’à conduire à des catastrophes bien connues
      Et si même des consultants très bien payés ne vérifient pas les liens, c’est encore pire
  • Existe-t-il une source qu’on puisse consulter simplement en texte brut ? Le style CSS me donne mal à la tête, et le mode lecture ne fonctionne pas ou semble bloqué

    • Le défilement est vraiment pénible, et même en passant en mode lecture, tout était cassé
    • Firefox a un mode lecteur pratique qui extrait uniquement le texte d’une page et l’affiche de manière simplifiée. Sur Mac, on peut l’activer avec Opt + CMD + R
      Le problème, c’est que cette fonction supprime aussi certaines images contenant une partie des sources utilisées
    • C’est pareil en Lockdown Mode sur iOS
  • La vraie comédie, c’est de voir ce genre de déchets descendre de la part de la haute direction. Des prompts maladroits, des hallucinations de pacotille, zéro information exploitable et zéro vraie analyse, uniquement de la fanfaronnade
    C’est du genre : « Regardez cette analyse des tickets de support extraite de Jira. Il faut absolument corriger ces trois principaux problèmes !!! » alors qu’en réalité tout le monde les connaît depuis des années et que la direction n’a simplement donné à personne le pouvoir de les régler
    Après avoir vu ça plus de deux fois, il faudrait un nom pour le phénomène. Peut-être Garbagemaxxing

    • Si le fait de « corriger les trois principaux problèmes » vise effectivement des problèmes connus de tous depuis longtemps et pour lesquels la direction n’avait donné à personne l’autorité nécessaire, alors l’effet net est quand même positif, non ?
  • C’est une page vraiment atroce à parcourir

    • Sur mobile, elle détourne le scroll, si bien qu’on ne peut littéralement plus descendre davantage. Le mode lecture n’affiche que le premier paragraphe environ
      Je regarderai ça plus tard sur un ordinateur. Le contenu a l’air intéressant, mais en pratique il est impossible à lire. Je n’arrive pas à dépasser la section de présentation d’Ernst and Young
    • J’ai l’impression que mon scroll hallucine
    • C’est un tout autre niveau d’hostilité envers l’utilisateur. Je n’avais jamais vu ça
    • Mon iPhone a activé automatiquement le mode lecture, et quand je l’ai désactivé pour voir de quoi il retournait, j’ai fini par être d’accord
    • Du feedback non linéaire avec, littéralement, des blocages : horrible
      Certaines personnes ne devraient pas faire de sites web
  • Quelqu’un a aussi halluciné la façon dont le scroll est censé fonctionner sur une page web ?

  • Ce qui est étrange, c’est que ce rapport aurait été un énorme scandale il y a seulement 12 à 18 mois, avec un préjudice de marque durable, alors qu’aujourd’hui on a l’impression que plus personne ne s’en souviendra ni même ne s’en apercevra

  • Il faut déjà corriger le site web. Il faut jeter ces misérables animations JavaScript. Ce genre de choses était déjà réglé en 2014 avec D3JS et jQuery

  • Je ne comprends pas comment cela peut arriver. Par exemple, Qwen Chat ou Perplexity ajoutent des citations à la fin de chaque phrase générée
    En survolant chaque citation, on peut voir de quel site web elle provient
    Ils ont simplement saisi un prompt dans un ChatGPT sans recherche web, puis fait un copier-coller ?

  • EY licencie discrètement des gens depuis un an
    Si on essaie de faire plus avec moins de monde, il n’est pas surprenant que cela débouche sur une baisse de qualité

    • Ce qui est intéressant, c’est qu’il peut y avoir une vraie demande pour des services qui ne font en réalité rien du tout
      Une grande partie du travail en entreprise consiste simplement à cocher des cases
      Le patron dit : « Apportez-moi un rapport sur X. Je vais le transmettre à mon propre patron, qui ne le lira pas »
      Et la mécanique devient : « E&Y, faites-nous un rapport. Voici 200 000 dollars »
  • La page web elle-même a probablement aussi été faite en vibe coding, et son auteur n’a sans doute pas jugé utile de s’en soucier