3 points par GN⁺ 2025-11-07 | 1 commentaires | Partager sur WhatsApp
  • Un vaste ensemble de données comprenant 1 957 476 021 adresses e-mail uniques et 1,3 milliard de mots de passe a été rendu public et vient d’être ajouté à Have I Been Pwned (HIBP)
  • Parmi eux, 625 millions de mots de passe n’avaient encore jamais été vus auparavant, ce qui en fait le plus grand volume de données jamais traité par HIBP
  • Les données proviennent de la plateforme de threat intelligence de Synthient et regroupent des données de credential stuffing, avec des combinaisons e-mail/mot de passe issues de plusieurs violations de données
  • Pour vérifier l’authenticité des données, HIBP a demandé à ses abonnés de confirmer directement certains éléments, et certains mots de passe étaient toujours réellement utilisés
  • Cette indexation ne correspond pas à une fuite Gmail, mais au résultat de la collecte d’identifiants auprès de victimes infectées par des malwares ; les utilisateurs peuvent vérifier leur exposition via HIBP ou Pwned Passwords

Vue d’ensemble des données

  • L’ensemble de données comprend 1 957 476 021 adresses e-mail uniques et 1,3 milliard de mots de passe
    • Parmi eux, 625 millions de mots de passe apparaissent pour la première fois dans HIBP
    • Il s’agit du plus grand volume jamais traité par HIBP, environ 3 fois plus important que la plus grande fuite précédente
  • Les données font partie des informations de threat intelligence collectées par Synthient et incluent des listes de credential stuffing
    • Les données de credential stuffing sont créées en réutilisant des combinaisons e-mail/mot de passe issues de multiples violations
    • Comme beaucoup de personnes réutilisent le même mot de passe sur plusieurs sites, une seule fuite peut entraîner la compromission de comptes sur d’autres services

Processus de vérification des données

  • La vérification a commencé avec l’adresse e-mail personnelle de l’auteur, et certains anciens mots de passe correspondaient effectivement
    • D’autres mots de passe semblaient inconnus, et certains contenaient des valeurs anormales comme des adresses IP
  • HIBP a également demandé à ses abonnés de vérifier les données afin de recueillir plusieurs cas concrets
    • Un utilisateur a constaté la présence à la fois d’un ancien mot de passe et d’un mot de passe récent, et les a immédiatement changés
    • Un autre utilisateur a retrouvé des mots de passe utilisés il y a 10 à 20 ans
    • Certains répondants ont découvert que des mots de passe toujours utilisés sur des comptes actifs avaient été exposés
  • La vérification a montré que l’ensemble mélangeait d’anciennes informations et des mots de passe encore en usage
    • Certaines entrées étaient des mots de passe générés automatiquement ou si anciens qu’ils n’étaient plus reconnus

Fonction de recherche Pwned Passwords

  • Le service Pwned Passwords de HIBP stocke séparément les adresses e-mail et les mots de passe
    • Il s’agit d’une mesure de sécurité et de protection de la vie privée visant à éviter l’exposition de paires e-mail/mot de passe
  • Les utilisateurs peuvent vérifier si un mot de passe a été exposé de plusieurs façons
    1. Utiliser la page de recherche Pwned Passwords
    2. Effectuer une recherche par code via l’API k-anonymity
    3. Lancer une vérification automatique via la fonction 1Password Watchtower
  • Toutes les combinaisons de PIN à 4 chiffres ont déjà fuité, et il existe aussi une visualisation des usages de PIN fondée sur les données de HIBP

Ce n’est pas une fuite Gmail

  • Cet incident n’a aucun lien avec une faille de sécurité Gmail ; il s’agit de données d’identifiants collectées auprès de victimes infectées par des malwares
  • L’ensemble comprend 32 millions de domaines e-mail, dont gmail.com représente 394 millions
    • Les adresses Gmail ne comptent que pour environ 20 % du total, les 80 % restants appartenant à d’autres domaines
    • Cela n’a aucun rapport avec une faille de sécurité chez Google

Traitement technique

  • Ce jeu de données est environ 3 fois plus volumineux que la fuite précédente la plus importante, ce qui a rendu le traitement très complexe
    • HIBP a effectué le traitement pendant environ deux semaines dans un environnement Azure SQL Hyperscale (80 cœurs)
    • Lors de la génération des hachages SHA1 des adresses e-mail, les mises à jour massives ont échoué, ce qui a conduit à passer à un traitement par lots de 1 million d’entrées
  • 2,9 millions des 5,9 millions d’abonnés sont inclus dans ces données
    • Pour éviter les filtres anti-spam et les limitations serveur lors des envois massifs, HIBP a adopté une stratégie d’envoi progressive
    • Le volume d’envoi a été ajusté avec une hausse de 1,015× par heure, soit environ 45 % par jour
    • La fiabilité a été maintenue grâce à des configurations DKIM, DMARC et SPF ainsi qu’à l’usage d’une IP dédiée
  • La taille des réponses de l’API Pwned Passwords est passée en moyenne de 26 Ko à 40 Ko
    • Cela s’explique par une augmentation d’environ 50 % de la taille des plages de hachage, tout en conservant une bonne efficacité grâce à la compression brotli

Conclusion et actions recommandées

  • Cet ensemble de données peut être recherché dans HIBP sous le nom « Synthient Credential Stuffing Threat Data »
    • Il s’agit d’un jeu de données distinct des précédentes données Synthient, avec certains chevauchements
  • HIBP indique avoir vérifié l’intégrité des données et propose une fonction de recherche centrée sur la protection de la vie privée
  • Mesures de sécurité recommandées aux utilisateurs
    • Utiliser un gestionnaire de mots de passe
    • Créer des mots de passe forts et uniques
    • Utiliser des passkeys et activer l’authentification multifacteur (MFA)
  • HIBP souligne qu’il s’agissait d’un projet très coûteux en temps et en argent, et demande aux utilisateurs de se concentrer sur l’amélioration de leurs pratiques de sécurité plutôt que de solliciter un accès aux données

1 commentaires

 
GN⁺ 2025-11-07
Avis Hacker News
  • Il y a eu beaucoup trop de fuites de données jusqu’à présent. J’ai l’impression que mon adresse, mon SSN, mon numéro de téléphone, mon e-mail, etc. ont tous été exposés plusieurs fois
    J’ai reçu des notifications de fuite de la part de mon université, de sites de recherche d’emploi, de réseaux sociaux, et en plus de ça mes données circulent probablement aussi via de la big data analytics tout à fait légale
    Aujourd’hui, je stocke et gère des mots de passe robustes dans Bitwarden, mais j’ai l’impression que mes vieux comptes d’autrefois restent encore à risque
    Honnêtement, je ne sais plus trop ce que je peux faire maintenant. C’est frustrant de savoir que mes données sont déjà dehors

    • J’utilise un alias e-mail différent pour chaque compte, ainsi qu’un gestionnaire de mots de passe
      Je profite de mon temps libre pour faire le ménage dans mes vieux comptes. Ça me permet d’identifier immédiatement la source d’un spam ou d’une fuite à partir de l’adresse e-mail
      Avec le filtrage Sieve, on peut classer les messages de façon bien plus fine. En utilisant à la fois envelope to et header to, on peut détecter précisément les mails en BCC ou envoyés à des alias
      Documentation liée : RFC5228 Sieve Filtering
      Il m’est même déjà arrivé de récupérer un compte oublié grâce à un spam qui contenait l’un de mes anciens mots de passe
    • Bitwarden est vraiment excellent. J’essaie de le recommander autour de moi, mais les réactions restent tièdes
      Ma femme dit déjà que la protection des informations en ligne est un combat perdu d’avance. Elle a peut-être raison
    • Les adresses sont pour la plupart des archives publiques. Il suffit de chercher sur un site comme fastpeoplesearch.com pour les trouver tout de suite
      Les numéros de téléphone aussi figuraient autrefois dans les annuaires. Ça donne toujours l’impression d’être une information publique
    • Je suis dans une situation similaire. Il est important de mettre en place un gel de crédit auprès des trois grands bureaux de crédit américains
      Quelqu’un avait autrefois ouvert un abonnement à la télévision par câble avec mes informations, et ça a été pénible à faire retirer de mon historique de crédit
    • J’étais dans l’armée, et la Chine a même volé mon profil ADN. Maintenant, je me suis simplement résigné
  • Troy va probablement pouvoir économiser beaucoup d’espace en base de données maintenant
    On a presque l’impression qu’il pourrait simplement faire

    def email_compromised(email):
        return True
    

    tant on a l’impression que toutes les adresses e-mail ont été compromises

    • Pas forcément. Mes deux adresses e-mail principales sont toujours signalées comme intactes
      En revanche, mes adresses utilisées pour des usages secondaires ont déjà 9 fuites à leur actif
  • Il semble que cet ensemble de données contienne des informations de fuite non divulguées de Spotify
    Début 2020, mon compte Spotify avec un mot de passe faible a déjà été connecté depuis une IP américaine
    Quelques heures plus tard, Spotify a envoyé automatiquement une réinitialisation de mot de passe, mais il n’y a jamais eu de notification officielle de fuite
    Et maintenant seulement cet e-mail apparaît dans HIBP

    • Une grande entreprise comme Spotify aurait dû déclarer officiellement une telle fuite
  • Je respecte le travail de Troy Hunt, mais même si je cherche mon e-mail sur Have I Been Pwned, il n’y a aucune action concrète à entreprendre
    Le site se contente de dire « vous êtes à risque, gérez bien vos mots de passe »
    Changer plus de 500 mots de passe est irréaliste. Au final, il faut s’en remettre à des gestionnaires de mots de passe comme Bitwarden, 1Password, Chrome, etc.

    • Il faut utiliser un mot de passe aléatoire et unique pour chaque site
      Moi aussi, je réutilisais le même mot de passe avant, et tous mes comptes ont fini par être compromis
      Aujourd’hui, je ne retiens plus que le mot de passe maître du gestionnaire, celui de Gmail et celui du chiffrement du disque ; tout le reste est généré par le gestionnaire
      J’active aussi la 2FA (U2F/WebAuthn) partout où c’est possible
    • Oui. Au final, le gestionnaire de mots de passe est la clé
    • La page HIBP Passwords permet de vérifier directement et en toute sécurité si un mot de passe a été compromis
      1Password fonctionne de la même manière, sans stocker le nom du compte, donc sans créer de nouveau risque de fuite
    • Cet ensemble de données est un agrégat de plusieurs fuites, donc il est impossible d’en connaître la source
    • J’ai déjà reçu une alerte HIBP et immédiatement réinitialisé les mots de passe des utilisateurs
      Mais la plupart provenaient en fait d’anciennes fuites, donc j’essaie d’éviter les actions inutiles
  • Comme j’utilise plusieurs adresses e-mail personnalisées, il faut un abonnement payant pour les vérifier sur HIBP
    C’est peu pratique quand on gère des centaines d’adresses. Cela dit, utiliser une adresse unique par site reste toujours pertinent

    • Avant, la recherche par domaine était gratuite. Je m’étais inscrit en 2017, puis j’ai reçu des alertes de fuite en 2020 et 2022
    • En réalité, utiliser des alias e-mail permet de savoir immédiatement quand une fuite se produit. Et avec seulement une adresse e-mail, l’usurpation d’identité reste difficile
    • Je suis dans le même cas. Je suis toutes mes adresses dans mon gestionnaire de mots de passe, mais les vérifier une par une sur HIBP est fastidieux
    • Le plus réaliste est simplement de partir du principe que toutes les adresses e-mail sont déjà exposées. Une adresse e-mail n’est pas un secret
    • Au final, le vrai secret, c’est le mot de passe. Tant qu’il reste solide, ça va
  • Mon ancienne adresse e-mail a fuité lors du piratage de Facebook, puis quelqu’un a réenregistré ce domaine et a tenté une prise de contrôle de compte
    Heureusement, la 2FA et les alertes de sécurité de Facebook ont permis de bloquer ça
    Il faut absolument supprimer des comptes les adresses e-mail qu’on n’utilise plus

    • Utiliser un domaine personnel pour son e-mail implique un coût de maintenance à vie. Si vous laissez expirer le domaine, quelqu’un d’autre peut l’acheter et tenter une récupération de compte
      Le fait qu’iCloud ou Gmail permettent désormais de connecter facilement un domaine personnalisé a accru ce risque
    • C’est étonnant d’aller jusque-là pour cibler un seul compte
    • Je trouve incroyable que la personne ait payé pour acheter le domaine juste pour essayer. Je ne suis même pas une célébrité
  • Le passage sur Azure SQL Hyperscale tournant sur 80 cœurs pendant 2 semaines est intéressant
    Pour ne gérer que des e-mails et des mots de passe, SQL semble être un choix excessif.
    Même avec 15 milliards d’entrées, 600 Go devraient pouvoir être traités sur un serveur ordinaire

    • En réalité, le vrai problème était la mise à jour de 1,9 milliard de hachages SHA1
      Les mises à jour in-place étaient lentes, donc une table séparée a été créée, et lors de l’envoi des alertes e-mail ils ont aussi buté sur des limitations du fournisseur de messagerie
    • J’ai eu la même impression. Troy a sans doute utilisé Azure en raison de sa relation avec Microsoft
      Le titre de « Microsoft Regional Director and MVP » prête à confusion
    • Azure SQL est clairement un mauvais choix. Pour une simple recherche de hachages, une structure basée sur des fichiers binaires serait bien plus efficace
      On pourrait créer un fichier de 20 Go avec les hachages SHA1 triés, puis faire une recherche binaire ou utiliser un index basé sur la distribution des hachages pour obtenir la réponse en un seul I/O
      En divisant en 65 536 blocs triés, on résout aussi les problèmes de mémoire
      Une telle structure pourrait être exploitée sur Blob Storage pour un coût environ 50 fois inférieur à Azure SQL
  • On dirait que les données HIBP ont une date d’expiration. Avant, mon e-mail figurait dans la fuite Dropbox, mais cette entrée a maintenant disparu
    Page de la fuite Dropbox

  • Je me demande lequel est le meilleur entre Bitwarden / 1Password / Proton Pass
    Proton Pass me semble encore trop jeune pour inspirer confiance, et je repense aussi au principe de ne pas « mettre tous ses œufs dans le même panier »
    J’ai choisi Bitwarden parce qu’il est open source, et j’espère que l’ampleur de sa base d’utilisateurs gratuite permet de faire remonter et corriger rapidement les problèmes

    • J’utilise 1Password, et son interface comme ses fonctionnalités de gestion en entreprise sont bien plus confortables
      Avec un compte business, avoir aussi un compte famille gratuit est un vrai avantage
      Cela dit, la philosophie open source de Bitwarden reste tout à fait digne d’intérêt
  • Le titre de cet article aurait probablement été plus juste sous la forme « 1,3 milliard de mots de passe compromis »
    Le nombre est un peu plus petit, mais la portée est bien plus importante

    • Le nombre réel de mots de passe est probablement encore plus faible 😉