1 points par GN⁺ 2 일 전 | 1 commentaires | Partager sur WhatsApp
  • Une fuite massive a exposé des données biométriques vocales et des pièces d’identité officielles liées sur une même ligne de données, concernant plus de 40 000 sous-traitants IA d’après l’index des échantillons divulgués
  • Chaque sous-traitant disposait en moyenne de 2 à 5 minutes d’enregistrements propres, bien au-delà du seuil nécessaire à un clonage vocal réalisable avec seulement 15 secondes d’audio de référence
  • Les données divulguées associent clone vocal et identité vérifiée, ce qui peut permettre de contourner l’authentification vocale bancaire, mener du vishing en entreprise, des appels vidéo deepfake, des fraudes aux demandes d’assurance ou des appels d’urgence se faisant passer pour un proche
  • Si vous avez téléversé des échantillons vocaux sur Mercor ou sur un autre intermédiaire d’entraînement IA actif jusqu’en 2025, il faut les traiter comme un mot de passe compromis et supprimer les voix publiques, définir un mot-code, réenregistrer vos empreintes vocales et les désactiver si nécessaire
  • Les voix suspectes doivent être soumises à une analyse forensique pour vérifier les incohérences de codec, les schémas respiratoires, le micro-jitter, les trajectoires des formants, la cohérence acoustique de la pièce, ainsi que les anomalies de prosodie et de débit, ce qui met plus largement en lumière les faiblesses de l’authentification vocale

Aperçu de la compromission

  • Le 4 avril 2026, Lapsus$ a publié Mercor sur son site de fuites, avec un volume estimé à environ 4 To
  • L’archive de la fuite associait des données biométriques vocales et les pièces d’identité officielles de la même personne, et concernait plus de 40 000 sous-traitants d’après l’index des échantillons divulgués
  • Les personnes visées étaient des sous-traitants inscrits pour effectuer du data labeling pour l’entraînement d’IA, enregistrer des phrases lues à voix haute et passer des appels de vérification
  • Dans les dix jours suivant la publication, cinq actions en justice de sous-traitants ont été déposées, affirmant que les empreintes vocales avaient été collectées comme « données d’entraînement » sans préciser clairement qu’il s’agissait d’identifiants biométriques permanents

Pourquoi cette fuite est différente

  • Au cours des dix dernières années, les fuites vocales relevaient surtout soit d’enregistrements d’appels difficiles à relier à une identité, soit de fuites de pièces d’identité et de selfies sans audio
  • La procédure d’inscription de Mercor combinait un scan de passeport ou de permis de conduire, un selfie webcam et un enregistrement vocal de lecture de script dans un environnement calme sur une même ligne de données
  • Cette combinaison correspond exactement à ce que demandent en entrée les services de clonage vocal synthétique
  • Selon un article du Wall Street Journal de février 2026, les outils du marché n’ont besoin que d’environ 15 secondes d’audio de référence propre pour produire un clonage vocal de haute qualité
  • Les enregistrements Mercor représenteraient en moyenne 2 à 5 minutes de voix de qualité studio par sous-traitant, bien au-delà du seuil nécessaire au clonage
  • Une fois associés à des documents d’identité vérifiés, les attaquants disposent à la fois d’un clone vocal et des justificatifs nécessaires pour l’utiliser dans des attaques réelles

Attaques possibles avec les données vocales volées

  • Contournement de l’authentification bancaire

    • De nombreuses banques américaines et britanniques traitent encore la correspondance d’empreinte vocale comme l’un des deux facteurs d’authentification
    • Si un clone vocal du titulaire lit la phrase de vérification, il peut franchir la barrière audio, et il ne reste alors que les questions de connaissance personnelle, elles aussi potentiellement tirées du même jeu de données divulgué
  • Vishing ciblant l’entreprise

    • Il est possible d’appeler les RH ou la finance en se faisant passer pour un employé afin de demander un changement de compte de versement, un virement ou le déverrouillage d’un poste de travail
    • Les archives de Krebs on Security recensent plus de 24 cas confirmés depuis 2023
  • Appels vidéo deepfake

    • En 2024, chez Arup, un responsable financier a transféré environ 25 millions de dollars après un appel vidéo deepfake impliquant plusieurs personnes
    • À l’époque, la voix et le visage avaient été créés à partir de vidéos publiques, mais la fuite Mercor contient à la fois un audio de qualité studio et des pièces d’identité vérifiées, meilleurs que de simples vidéos publiques
  • Fraude aux demandes d’assurance

    • Pindrop a relevé en 2025 une hausse de 475 % sur un an des attaques par voix synthétique contre les centres d’appels d’assurance
    • Les demandes d’indemnisation auto, vie et invalidité traitées par téléphone constituent des cibles majeures
  • Arnaques aux appels d’urgence se faisant passer pour un proche

    • Le FBI Internet Crime Complaint Center a estimé les pertes des victimes de plus de 60 ans à 2,3 milliards de dollars sur l’année 2026
    • La catégorie ayant connu la plus forte croissance était celle des appels d’urgence d’usurpation affirmant qu’un proche était en danger

Vérifier les abus de voix et réagir immédiatement

  • Si vous avez téléversé des échantillons vocaux sur Mercor ou sur un autre intermédiaire d’entraînement IA actif jusqu’en 2025, vous devez les traiter comme un mot de passe compromis
  • La voix elle-même ne peut pas être remplacée, mais les moyens d’authentification qu’elle peut déverrouiller, eux, peuvent l’être
  • Vérifier les traces audio publiques

    • Il faut rechercher les échantillons vocaux indexés publiquement sur YouTube, dans les répertoires de podcasts et dans d’anciens enregistrements Zoom
    • Mieux vaut supprimer autant que possible les voix publiques qu’il est possible de retirer
    • Moins il existe d’audio de référence public, moins le clone de l’attaquant sera robuste
  • Définir un mot-code oral avec la famille et les contacts financiers

    • Il faut choisir une expression qui n’a jamais été enregistrée ni saisie dans un chat
    • Elle doit être communiquée à l’avance aux personnes susceptibles d’exécuter des opérations financières à votre place
    • Pour les appels demandant un virement, il est plus sûr d’imposer le mot-code comme étape obligatoire
  • Réenregistrer partout où une empreinte vocale est utilisée

    • Google Voice Match, Amazon Alexa Voice ID, Apple personal voice et l’enregistrement d’empreinte vocale bancaire peuvent être supprimés puis remplacés
    • Il est préférable de refaire l’enregistrement dans un environnement acoustique différent de celui des échantillons divulgués
  • Désactiver l’authentification bancaire par empreinte vocale

    • Il est possible de demander par écrit que l’empreinte vocale soit retirée des facteurs d’authentification
    • Il vaut mieux demander une authentification multifacteur combinant un token d’application ou une clé matérielle avec des éléments de connaissance
    • De nombreuses banques proposent l’option de retirer la voix comme facteur principal, mais elles en parlent peu
  • Analyse forensique des enregistrements suspects

    • Si vous recevez un fichier audio ou un message vocal d’une personne prétendant vous connaître et réclamant de l’argent, un accès ou une réponse urgente, mieux vaut ne pas agir immédiatement et le soumettre d’abord à un détecteur de deepfake
    • ORAVYS propose une analyse gratuite des trois premiers échantillons soumis par des victimes de la compromission
    • Lancer une vérification forensique →

Checklist d’analyse forensique

  • L’analyse forensique commence d’abord par la recherche des erreurs courantes des voix synthétiques
  • Les incohérences de codec apparaissent lorsque la signature spectrale d’un audio présenté comme un appel téléphonique ne correspond pas aux codecs téléphoniques connus
  • Les schémas respiratoires divergent car un locuteur réel inspire selon la longueur des phrases et sa capacité pulmonaire, alors qu’une voix synthétique saute parfois des respirations ou les place sur de mauvaises frontières syllabiques
  • Le micro-jitter désigne les fines irrégularités naturelles de la vibration des cordes vocales, tandis qu’un audio généré est souvent trop propre à l’échelle de la milliseconde
  • Les trajectoires des formants suivent les transitions vocaliques produites par les organes articulatoires réels, alors qu’une voix clonée peut parfois sauter d’un formant à l’autre d’une manière physiquement impossible
  • La cohérence acoustique de la pièce suppose que les caractéristiques de réverbération restent les mêmes du début à la fin du fichier, alors qu’un audio généré peut être sec tandis que le contexte ambiant collé autour présente de la réverbération
  • L’aplatissement de la prosodie apparaît lorsque la voix synthétique présente une variation plus faible de hauteur et d’énergie qu’un locuteur réel
  • La stabilité du débit révèle souvent la synthèse, car contrairement à un humain qui accélère et ralentit, une voix générée garde parfois un rythme métronomique sur de longues séquences

La méthode d’analyse d’ORAVYS

  • Pour chaque échantillon soumis, plus de 3 000 moteurs forensiques sont exécutés en parallèle, couvrant conjointement les domaines du signal, de la prosodie, de l’articulation, du codec et de la provenance
  • La détection du watermark AudioSeal permet d’identifier les fichiers générés par les principaux modèles vocaux commerciaux lorsque le watermark a été conservé, et fournit alors un résultat positif déterminant
  • Le module anti-spoofing a été entraîné sur la base du benchmark public ASVspoof et attribue un score à la probabilité qu’un échantillon soit synthétique plutôt qu’enregistré
  • Le traitement des données biométriques est conforme au RGPD ; sans consentement explicite, les audios ne sont pas utilisés pour entraîner des modèles commerciaux et sont supprimés selon un calendrier de conservation défini
  • Si vous êtes un sous-traitant Mercor et que votre voix circule peut-être déjà, les trois premiers échantillons suspects peuvent être analysés gratuitement
  • Le rapport gratuit inclut la détection de watermark, le score anti-spoofing et la checklist d’artefacts ci-dessus
  • L’entreprise affirme qu’aucune carte bancaire n’est requise et qu’il n’existe pas de barrière liée à une limite d’usage

Sources et limites

  • Les sources citées sont l’index du site de fuite de Lapsus$, le Wall Street Journal de février 2026, le Pindrop Voice Intelligence Report 2025, le FBI IC3 Elder Fraud Report 2026 et les archives de Krebs on Security
  • ORAVYS n’héberge ni ne redistribue le jeu de données divulgué, et ne l’accepte pas non plus en entrée

1 commentaires

 
GN⁺ 2 일 전
Commentaires sur Hacker News
  • L’ironie est énorme. Pour limiter les dégâts causés par le transfert de ma voix à une entreprise d’IA, il faudrait donc envoyer ma voix à une autre entreprise d’IA
    Mercor a probablement aussi prévu une échappatoire juridique en glissant un consentement explicite dans ses conditions d’utilisation

    • Ce qui est encore plus amer que la proposition d’analyse gratuite, c’est que la structure même du contrat Mercor suivait déjà exactement ce schéma
      Il fallait fournir un enregistrement vocal de niveau studio et un scan de pièce d’identité, alors qu’aucun des deux n’était nécessaire pour le véritable travail d’annotation de données, le consentement était enfoui profondément dans les conditions, et les gens n’avaient souvent d’autre choix que de cliquer parce qu’ils avaient besoin d’être payés
      Maintenant, 40 000 personnes ont appris que les données biométriques ne sont pas des mots de passe, et qu’on ne peut pas remplacer sa voix
    • Le terme CYA ressemble à une manière bien trop légère d’enrober la réalité
      Dans l’idéal, le droit devrait être un moyen accessible de résoudre les conflits à la place de la violence, mais aujourd’hui il sert plus souvent de système kafkaïen maintenant le pouvoir des entreprises au-dessus des individus
      En pratique, cela revient presque à bloquer toute possibilité de recours juridique, tandis que les autres moyens de réponse impliquent des coûts lourds et continus, comme devoir entretenir plusieurs lieux de résidence ou embaucher une protection
      Ce n’est pas une défense de la violence, mais l’idée qu’il nous faut un système juridique plus horizontal et plus accessible
    • D’après l’article du WSJ de la semaine dernière, Mercor semble viser les zones grises du contrat. Et ce n’était pas seulement une question de voix
      Beaucoup de gens ont en réalité mis sur écoute leur propre personne et même leur propre entreprise
      Même si des contractuels de Mercor affirment qu’Insightful collectait trop de données, du point de vue de l’entreprise c’est aussi une structure assez habile. En effet, si quelqu’un proteste trop fort, il risque non seulement de perdre son activité principale, mais aussi de se retrouver exposé à une responsabilité illimitée pour faute intentionnelle
      https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
    • Quand j’ai essayé de supprimer mon compte Airbnb, on m’a demandé un scan recto-verso de ma pièce d’identité, donc j’ai laissé tomber et je n’ai plus jamais réutilisé cette entreprise
    • Ça ressemble à la situation où il faut d’abord prouver son identité pour toucher un dédommagement pour usurpation d’identité
  • C’est l’auteur. J’ai écrit ce billet après avoir vu l’archive Mercor que Lapsus$ a mise en ligne sur son site de fuite au début du mois
    Ce qui m’a particulièrement frappé, c’est la combinaison entre échantillons vocaux et scans de pièces d’identité. En général, dans une fuite, on a l’un ou l’autre, mais ici c’est comme si on livrait directement un kit prêt à l’emploi pour le deepfake
    J’ai essayé de résumer de façon concrète ce qu’un attaquant peut réellement faire avec cette combinaison, par exemple contourner une authentification vocale bancaire, usurper une visioconférence à la manière d’Arup, commettre une fraude à l’assurance, ainsi qu’une checklist pratique en 5 étapes à suivre pour les contractuels touchés
    On peut aussi parler de détection forensique. Le watermark AudioSeal, l’anti-spoofing AASIST, et la manière dont le paysage de la détection change si des données biométriques vocales commencent à fuiter à grande échelle sont également importants

    • C’était une ressource intéressante. Mercor n’a presque pas pris de position publique après l’incident
      Les publications sur les réseaux sociaux ne constituent peut-être pas une annonce officielle, mais j’ai trouvé cet exemple de notification de fuite déposé en Californie
      Reste à voir si nos législateurs traiteront enfin sérieusement la confidentialité des données cette fois
      https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
    • Quand HSBC a proposé il y a quelques années une authentification vocale, j’ai refusé immédiatement
      Même sur les appareils Apple, je n’utilise pas la biométrie, seulement un PIN à 6 chiffres
      À mes yeux, c’était une idée stupide dès le départ
      On voit toujours le même schéma : on échange la sécurité contre la praticité, ceux qui ne choisissent pas la praticité passent pour paranoïaques, puis quand l’incident finit réellement par se produire, on continue quand même à les traiter de paranoïaques, juste pour une autre raison
  • Les seules données qui ne sont pas volées ou divulguées sont celles qui n’existent pas. C’est une leçon douloureuse pour les utilisateurs comme pour les entreprises
    Il existe même en allemand le mot Datensparsamkeit pour désigner cette idée. Cela signifie à peu près qu’il faut être économe avec les données

    • S’il existe un mot allemand pour cela, c’est aussi en raison d’un contexte historique
      Dans l’Allemagne des années 1970, il y a eu de grands débats sur la vie privée et le stockage des données, et on utilisait aussi des expressions comme Datenschatten
      Cette tradition vient sans doute de la réflexion née après la Seconde Guerre mondiale et d’une remise en question des systèmes administratifs
    • Avant les LLM, on pouvait défendre assez facilement l’idée que les données inutiles n’apportaient que davantage de responsabilité et de risque
      Aujourd’hui, tout le monde veut collecter toujours plus de choses comme données pour l’IA
    • Les données ne sont pas des objets physiques, donc à strictement parler elles ne sont pas volées
      Elles peuvent être copiées ou effacées, et parfois les deux en même temps
      On ne peut vraiment dire qu’une donnée a disparu que lorsque sa dernière copie a été supprimée
    • Pourtant, les entreprises tirent très rarement cette leçon
      Dans les modèles de menace enterprise, leurs propres utilisateurs sont inclus, et le mode opératoire consiste à accumuler autant d’informations que possible sur cette menace
    • Une donnée déjà publique se prête difficilement à la notion de fuite ou de vol
      Par exemple, le dataset Common Voice de Mozilla n’est pas de nature à pouvoir être volé par qui que ce soit
  • Hier à Houston, j’étais près d’anciens responsables d’agences et d’anciens GS15, et j’ai entendu l’explication selon laquelle la cybersécurité israélienne se serait infiltrée quelque part dans la supply chain de la messagerie vocale au cours des vingt dernières années pour récupérer la messagerie vocale de tout le monde
    Aujourd’hui, il existe vraiment énormément de façons d’exploiter les données audio, et c’est glaçant

  • On va donc tous devoir changer de voix maintenant ?
    C’est une blague, mais la plupart des gens ordinaires que je connais donnent simplement leurs données biométriques parce que c’est plus simple
    Il faudrait présenter les données biométriques comme des mots de passe permanents, afin que les gens comprennent précisément ce qu’ils abandonnent quand ils les utilisent pour accéder à leur compte bancaire ou entrer à Disney World

    • Fonctionnellement, les données biométriques ressemblent davantage à un nom d’utilisateur qu’à un mot de passe
      Empreintes digitales, ADN, iris, démarche : tout cela relève d’identifiants permanents qu’on ne peut presque pas modifier, et qui restent exposés au monde comme une adresse e-mail
      En plus, en droit américain, la police peut vous contraindre à présenter vos empreintes, alors que les mots de passe sont protégés par le cinquième amendement
    • Ceux qui disent c’est plus simple ont en fait un état d’esprit différent
      Ils vivent très bien avec la confiance sociale et la dénégation plausible, et tant qu’ils ne sont pas personnellement fautifs, ils se soucient peu de ce qui peut arriver
      Pour eux, s’exposer à un risque et en être responsable ne sont pas la même chose
      D’une certaine manière, je les envie un peu. Ils vivent en partant du principe que le monde devrait fonctionner ainsi
    • Quand je travaillais dans une banque, l’expression forever passwords était au contraire utilisée de manière positive
      Cela signifiait que le client ne les oublierait pas et aurait moins besoin d’assistance, donc beaucoup de gens peuvent très bien entendre cette formule dans un sens favorable
  • Que Mercor ait trompé 40 000 contractuels tout en ayant une sécurité des données désastreuse, c’est vraiment grave
    Ce genre d’affaire devrait entraîner une responsabilité bien plus forte

    • Ce qui est en train de se passer, c’est que des CTO ignorants qui ne connaissaient pas cette entreprise connaissent désormais son nom
      Il est donc possible qu’au final tout ce scandale se traduise par davantage de business pour Mercor
      On a vu quelque chose de similaire avec Crowdstrike
    • Si l’on collecte au minimum des empreintes vocales, il devrait y avoir des exigences de consentement, de conservation et de sécurité bien plus strictes que pour des données d’entraînement ordinaires
  • Si un attaquant possède 30 secondes d’une lecture vocale nette de quelqu’un et un scan de son permis de conduire, il y a déjà beaucoup de choses qu’il peut faire
    Rien qu’avec ma banque et mon courtier, on utilise encore un voice ID

  • On pourrait presque croire que l’objectif même de cette entreprise est d’aspirer ce type de données

    • C’est encore plus clair quand on lit la politique de confidentialité
      Ils collectent massivement toutes sortes de choses, dont vidéo, voix et autres
  • Si c’est vrai, le problème plus grave n’est peut-être même pas la fuite elle-même
    On est discrètement en train de basculer dans un monde où voix + pièce d’identité suffisent pour usurper complètement quelqu’un, alors que la plupart des systèmes ne sont toujours pas conçus en partant de cette réalité

  • Il y a aussi ici une question de travail assez laide
    Les personnes qui labellisent et entraînent ces systèmes sont précisément celles qui sont le moins protégées quand le pipeline de données se transforme en surface d’attaque