- Un vaste ensemble de données comprenant 1 957 476 021 adresses e-mail uniques et 1,3 milliard de mots de passe a été rendu public et vient d’être ajouté à Have I Been Pwned (HIBP)
- Parmi eux, 625 millions de mots de passe n’avaient encore jamais été vus auparavant, ce qui en fait le plus grand volume de données jamais traité par HIBP
- Les données proviennent de la plateforme de threat intelligence de Synthient et regroupent des données de credential stuffing, avec des combinaisons e-mail/mot de passe issues de plusieurs violations de données
- Pour vérifier l’authenticité des données, HIBP a demandé à ses abonnés de confirmer directement certains éléments, et certains mots de passe étaient toujours réellement utilisés
- Cette indexation ne correspond pas à une fuite Gmail, mais au résultat de la collecte d’identifiants auprès de victimes infectées par des malwares ; les utilisateurs peuvent vérifier leur exposition via HIBP ou Pwned Passwords
Vue d’ensemble des données
- L’ensemble de données comprend 1 957 476 021 adresses e-mail uniques et 1,3 milliard de mots de passe
- Parmi eux, 625 millions de mots de passe apparaissent pour la première fois dans HIBP
- Il s’agit du plus grand volume jamais traité par HIBP, environ 3 fois plus important que la plus grande fuite précédente
- Les données font partie des informations de threat intelligence collectées par Synthient et incluent des listes de credential stuffing
- Les données de credential stuffing sont créées en réutilisant des combinaisons e-mail/mot de passe issues de multiples violations
- Comme beaucoup de personnes réutilisent le même mot de passe sur plusieurs sites, une seule fuite peut entraîner la compromission de comptes sur d’autres services
Processus de vérification des données
- La vérification a commencé avec l’adresse e-mail personnelle de l’auteur, et certains anciens mots de passe correspondaient effectivement
- D’autres mots de passe semblaient inconnus, et certains contenaient des valeurs anormales comme des adresses IP
- HIBP a également demandé à ses abonnés de vérifier les données afin de recueillir plusieurs cas concrets
- Un utilisateur a constaté la présence à la fois d’un ancien mot de passe et d’un mot de passe récent, et les a immédiatement changés
- Un autre utilisateur a retrouvé des mots de passe utilisés il y a 10 à 20 ans
- Certains répondants ont découvert que des mots de passe toujours utilisés sur des comptes actifs avaient été exposés
- La vérification a montré que l’ensemble mélangeait d’anciennes informations et des mots de passe encore en usage
- Certaines entrées étaient des mots de passe générés automatiquement ou si anciens qu’ils n’étaient plus reconnus
Fonction de recherche Pwned Passwords
- Le service Pwned Passwords de HIBP stocke séparément les adresses e-mail et les mots de passe
- Il s’agit d’une mesure de sécurité et de protection de la vie privée visant à éviter l’exposition de paires e-mail/mot de passe
- Les utilisateurs peuvent vérifier si un mot de passe a été exposé de plusieurs façons
- Utiliser la page de recherche Pwned Passwords
- Effectuer une recherche par code via l’API k-anonymity
- Lancer une vérification automatique via la fonction 1Password Watchtower
- Toutes les combinaisons de PIN à 4 chiffres ont déjà fuité, et il existe aussi une visualisation des usages de PIN fondée sur les données de HIBP
Ce n’est pas une fuite Gmail
- Cet incident n’a aucun lien avec une faille de sécurité Gmail ; il s’agit de données d’identifiants collectées auprès de victimes infectées par des malwares
- L’ensemble comprend 32 millions de domaines e-mail, dont gmail.com représente 394 millions
- Les adresses Gmail ne comptent que pour environ 20 % du total, les 80 % restants appartenant à d’autres domaines
- Cela n’a aucun rapport avec une faille de sécurité chez Google
Traitement technique
- Ce jeu de données est environ 3 fois plus volumineux que la fuite précédente la plus importante, ce qui a rendu le traitement très complexe
- HIBP a effectué le traitement pendant environ deux semaines dans un environnement Azure SQL Hyperscale (80 cœurs)
- Lors de la génération des hachages SHA1 des adresses e-mail, les mises à jour massives ont échoué, ce qui a conduit à passer à un traitement par lots de 1 million d’entrées
- 2,9 millions des 5,9 millions d’abonnés sont inclus dans ces données
- Pour éviter les filtres anti-spam et les limitations serveur lors des envois massifs, HIBP a adopté une stratégie d’envoi progressive
- Le volume d’envoi a été ajusté avec une hausse de 1,015× par heure, soit environ 45 % par jour
- La fiabilité a été maintenue grâce à des configurations DKIM, DMARC et SPF ainsi qu’à l’usage d’une IP dédiée
- La taille des réponses de l’API Pwned Passwords est passée en moyenne de 26 Ko à 40 Ko
- Cela s’explique par une augmentation d’environ 50 % de la taille des plages de hachage, tout en conservant une bonne efficacité grâce à la compression brotli
Conclusion et actions recommandées
- Cet ensemble de données peut être recherché dans HIBP sous le nom « Synthient Credential Stuffing Threat Data »
- Il s’agit d’un jeu de données distinct des précédentes données Synthient, avec certains chevauchements
- HIBP indique avoir vérifié l’intégrité des données et propose une fonction de recherche centrée sur la protection de la vie privée
- Mesures de sécurité recommandées aux utilisateurs
- Utiliser un gestionnaire de mots de passe
- Créer des mots de passe forts et uniques
- Utiliser des passkeys et activer l’authentification multifacteur (MFA)
- HIBP souligne qu’il s’agissait d’un projet très coûteux en temps et en argent, et demande aux utilisateurs de se concentrer sur l’amélioration de leurs pratiques de sécurité plutôt que de solliciter un accès aux données
1 commentaires
Avis Hacker News
Il y a eu beaucoup trop de fuites de données jusqu’à présent. J’ai l’impression que mon adresse, mon SSN, mon numéro de téléphone, mon e-mail, etc. ont tous été exposés plusieurs fois
J’ai reçu des notifications de fuite de la part de mon université, de sites de recherche d’emploi, de réseaux sociaux, et en plus de ça mes données circulent probablement aussi via de la big data analytics tout à fait légale
Aujourd’hui, je stocke et gère des mots de passe robustes dans Bitwarden, mais j’ai l’impression que mes vieux comptes d’autrefois restent encore à risque
Honnêtement, je ne sais plus trop ce que je peux faire maintenant. C’est frustrant de savoir que mes données sont déjà dehors
Je profite de mon temps libre pour faire le ménage dans mes vieux comptes. Ça me permet d’identifier immédiatement la source d’un spam ou d’une fuite à partir de l’adresse e-mail
Avec le filtrage Sieve, on peut classer les messages de façon bien plus fine. En utilisant à la fois
envelope toetheader to, on peut détecter précisément les mails en BCC ou envoyés à des aliasDocumentation liée : RFC5228 Sieve Filtering
Il m’est même déjà arrivé de récupérer un compte oublié grâce à un spam qui contenait l’un de mes anciens mots de passe
Ma femme dit déjà que la protection des informations en ligne est un combat perdu d’avance. Elle a peut-être raison
Les numéros de téléphone aussi figuraient autrefois dans les annuaires. Ça donne toujours l’impression d’être une information publique
Quelqu’un avait autrefois ouvert un abonnement à la télévision par câble avec mes informations, et ça a été pénible à faire retirer de mon historique de crédit
Troy va probablement pouvoir économiser beaucoup d’espace en base de données maintenant
On a presque l’impression qu’il pourrait simplement faire
tant on a l’impression que toutes les adresses e-mail ont été compromises
En revanche, mes adresses utilisées pour des usages secondaires ont déjà 9 fuites à leur actif
Il semble que cet ensemble de données contienne des informations de fuite non divulguées de Spotify
Début 2020, mon compte Spotify avec un mot de passe faible a déjà été connecté depuis une IP américaine
Quelques heures plus tard, Spotify a envoyé automatiquement une réinitialisation de mot de passe, mais il n’y a jamais eu de notification officielle de fuite
Et maintenant seulement cet e-mail apparaît dans HIBP
Je respecte le travail de Troy Hunt, mais même si je cherche mon e-mail sur Have I Been Pwned, il n’y a aucune action concrète à entreprendre
Le site se contente de dire « vous êtes à risque, gérez bien vos mots de passe »
Changer plus de 500 mots de passe est irréaliste. Au final, il faut s’en remettre à des gestionnaires de mots de passe comme Bitwarden, 1Password, Chrome, etc.
Moi aussi, je réutilisais le même mot de passe avant, et tous mes comptes ont fini par être compromis
Aujourd’hui, je ne retiens plus que le mot de passe maître du gestionnaire, celui de Gmail et celui du chiffrement du disque ; tout le reste est généré par le gestionnaire
J’active aussi la 2FA (U2F/WebAuthn) partout où c’est possible
1Password fonctionne de la même manière, sans stocker le nom du compte, donc sans créer de nouveau risque de fuite
Mais la plupart provenaient en fait d’anciennes fuites, donc j’essaie d’éviter les actions inutiles
Comme j’utilise plusieurs adresses e-mail personnalisées, il faut un abonnement payant pour les vérifier sur HIBP
C’est peu pratique quand on gère des centaines d’adresses. Cela dit, utiliser une adresse unique par site reste toujours pertinent
Mon ancienne adresse e-mail a fuité lors du piratage de Facebook, puis quelqu’un a réenregistré ce domaine et a tenté une prise de contrôle de compte
Heureusement, la 2FA et les alertes de sécurité de Facebook ont permis de bloquer ça
Il faut absolument supprimer des comptes les adresses e-mail qu’on n’utilise plus
Le fait qu’iCloud ou Gmail permettent désormais de connecter facilement un domaine personnalisé a accru ce risque
Le passage sur Azure SQL Hyperscale tournant sur 80 cœurs pendant 2 semaines est intéressant
Pour ne gérer que des e-mails et des mots de passe, SQL semble être un choix excessif.
Même avec 15 milliards d’entrées, 600 Go devraient pouvoir être traités sur un serveur ordinaire
Les mises à jour in-place étaient lentes, donc une table séparée a été créée, et lors de l’envoi des alertes e-mail ils ont aussi buté sur des limitations du fournisseur de messagerie
Le titre de « Microsoft Regional Director and MVP » prête à confusion
On pourrait créer un fichier de 20 Go avec les hachages SHA1 triés, puis faire une recherche binaire ou utiliser un index basé sur la distribution des hachages pour obtenir la réponse en un seul I/O
En divisant en 65 536 blocs triés, on résout aussi les problèmes de mémoire
Une telle structure pourrait être exploitée sur Blob Storage pour un coût environ 50 fois inférieur à Azure SQL
On dirait que les données HIBP ont une date d’expiration. Avant, mon e-mail figurait dans la fuite Dropbox, mais cette entrée a maintenant disparu
Page de la fuite Dropbox
Je me demande lequel est le meilleur entre Bitwarden / 1Password / Proton Pass
Proton Pass me semble encore trop jeune pour inspirer confiance, et je repense aussi au principe de ne pas « mettre tous ses œufs dans le même panier »
J’ai choisi Bitwarden parce qu’il est open source, et j’espère que l’ampleur de sa base d’utilisateurs gratuite permet de faire remonter et corriger rapidement les problèmes
Avec un compte business, avoir aussi un compte famille gratuit est un vrai avantage
Cela dit, la philosophie open source de Bitwarden reste tout à fait digne d’intérêt
Le titre de cet article aurait probablement été plus juste sous la forme « 1,3 milliard de mots de passe compromis »
Le nombre est un peu plus petit, mais la portée est bien plus importante