Interdiction de l’injection de bruit dans les produits statistiques publiés par le Census Bureau

(desfontain.es)

1 points par GN⁺ 2026-06-14 | 1 commentaires | Partager sur WhatsApp

L’injection de bruit, utilisée pour produire des statistiques publiques à partir d’ensembles de données confidentiels, est une technique d’évitement de divulgation qui masque les informations personnelles des données sources tout en préservant l’utilité statistique
Un ordre du département du Commerce des États-Unis interdit l’injection de bruit dans tous les produits statistiques du Census Bureau et du Bureau of Economic Analysis, en visant directement la confidentialité différentielle
Le Census Bureau utilisait principalement le swapping pour les recensements décennaux de 1990 à 2010, mais après qu’il est apparu qu’il était facile de reconstruire des dossiers individuels à partir des seules statistiques publiées, il a adopté la confidentialité différentielle pour le recensement de 2020
La confidentialité différentielle combine une limitation des contributions et l’ajout d’un bruit finement calibré afin d’offrir une meilleure utilité pour un niveau de confidentialité comparable
Sans bruit, les futures publications statistiques risquent d’être soit bien moins utiles qu’auparavant, soit très peu sûres

Contexte

Les produits statistiques sont divers chiffres publiés à partir d’ensembles de données confidentiels, et lorsque ces ensembles contiennent des informations sensibles, les chiffres rendus publics ne doivent pas permettre de les révéler
Le recensement des États-Unis en est un exemple classique : les statistiques sont publiques, mais le contenu des formulaires remplis par les résidents américains doit rester confidentiel
Dans le domaine de la statistique, les techniques qui permettent de publier des statistiques utiles tout en protégeant la vie privée des données sources sont appelées évitement de divulgation
Parmi ces techniques figurent la suppression, qui retire les données ne dépassant pas certains seuils, la généralisation, qui rend les attributs moins précis, et l’échantillonnage, qui supprime aléatoirement certains enregistrements
On trouve aussi le swapping, qui échange aléatoirement des attributs entre différents enregistrements, la limitation des contributions, qui borne l’influence maximale d’une personne, et l’ajout de bruit, qui ajoute des nombres aléatoires aux statistiques
Confidentialité différentielle et recensement de 2020
- En combinant certaines techniques, on peut obtenir la confidentialité différentielle, largement considérée par les scientifiques comme le gold standard de la protection de la vie privée
- La confidentialité différentielle repose généralement sur une combinaison de limitation des contributions et d’ajout de bruit soigneusement calibré
- Le Census Bureau a principalement utilisé le swapping pour les recensements décennaux de 1990 à 2010
- Il a ensuite reconnu que le swapping était très peu sûr et qu’il était facile de reconstruire des dossiers individuels à partir des seules statistiques publiques
- Comme l’agence est légalement tenue de garder ces dossiers confidentiels, elle a testé plusieurs alternatives et a retenu la confidentialité différentielle pour le recensement de 2020, car c’était la méthode qui préservait le mieux l’utilité des statistiques tout en bloquant l’attaque
Baisse d’utilité et réactions
- La confidentialité différentielle n’a pas été choisie pour l’élégance de ses mathématiques, mais parce que, parmi les options permettant d’atténuer l’attaque, c’était celle qui préservait le plus l’utilité des données
- Les paramètres précis de confidentialité n’ont pas non plus été choisis pour fournir de fortes garanties théoriques, mais pour maximiser l’utilité des données tout en atteignant un niveau jugé acceptable de protection de la vie privée
- Dire qu’elle préservait le plus d’utilité sous ces nouvelles contraintes de confidentialité ne signifiait pas qu’elle préservait le même niveau d’utilité que le recensement de 2010
- Les chiffres sont devenus moins précis, et cette imprécision est devenue beaucoup plus visible, donc plus difficile à ignorer
- Les démographes et les chercheurs en sciences sociales ne pouvaient plus ignorer que les données qu’ils manipulaient contenaient du bruit, ce qui a nécessité un changement majeur dans la manière de les conceptualiser et de les utiliser
- Ceux qui utilisaient réellement les données du recensement pour reconstruire des dossiers individuels ne pouvaient plus le faire, et des démographes ont reconnu qu’il s’agissait d’une pratique courante
- C’est aussi un secret de Polichinelle que des acteurs politiques ont procédé à ce type de reconstruction dans le cadre d’efforts de gerrymandering

Contenu de l’ordre

L’exécutif a décidé que l’injection de bruit n’était plus une technique acceptable d’évitement de divulgation
L’ordre vise explicitement la confidentialité différentielle, mais semble aussi affecter d’autres techniques faisant appel à l’aléatoire
Le texte précise que la généralisation doit toujours être privilégiée et que la suppression ne doit être utilisée qu’en « dernier recours »
On ne sait pas pourquoi l’ordre est aussi spécifique
L’ordre prend soin de préciser qu’il ne doit pas « être interprété comme entrant en conflit avec la Constitution, la loi, la réglementation ou toute autre disposition juridique », et les obligations de confidentialité entourant ces produits statistiques continuent donc de s’appliquer

Impact réel

Les conséquences peuvent être graves pour l’utilité, pour la vie privée, ou pour les deux
Les futures publications statistiques pourraient être moins utiles que les publications passées, ou incroyablement peu sûres
Retirer un outil utile de la boîte à outils de l’évitement de divulgation rend toujours plus douloureux le compromis entre vie privée et utilité
L’objectif de ce champ de recherche est de mieux comprendre et quantifier les risques pour la vie privée, et de développer de meilleurs outils pour les atténuer tout en préservant l’utilité
Place de la confidentialité différentielle
- Pour la publication de statistiques, la confidentialité différentielle est aujourd’hui le meilleur outil disponible
- Elle fournit un moyen de quantifier plus finement le compromis et permet d’obtenir plus d’utilité des données que les techniques concurrentes pour un niveau de confidentialité comparable
- Si on l’élimine, il ne reste que des techniques offrant moins d’utilité pour un niveau de confidentialité similaire, ou une moins bonne confidentialité pour une utilité équivalente
- Les techniques concurrentes reposent elles aussi sur l’ajout de bruit
D’autres techniques utilisent aussi l’aléatoire
- La Cell Key method, utilisée par d’autres organismes statistiques, ajoute du bruit aux statistiques
- Le swapping utilisé par le Census de 1990 à 2010 injectait lui aussi de l’aléatoire dans le processus
- L’échantillonnage est largement utilisé dans les travaux statistiques
- L’imputation) ajoute aussi techniquement du bruit aux données
Limites de la généralisation et de la suppression
- La généralisation et la suppression sont des outils très grossiers
- Elles ne fonctionnent que lorsque les statistiques sont déjà très grossières et que le nombre de statistiques publiées est limité
- Dans des produits de données complexes comprenant de nombreuses statistiques sur de petits groupes, comme le recensement américain, la généralisation et la suppression détruisent l’utilité des données ou les rendent très vulnérables aux attaques contre la vie privée
- La destruction d’utilité touche particulièrement les groupes minoritaires
Pourquoi le bruit complique les attaques
- Les attaques contre la vie privée à partir de statistiques publiées ressemblent à un problème de résolution de systèmes d’équations
- Quand on sait avec certitude que toutes les statistiques sont parfaitement exactes, la tâche devient beaucoup plus facile
- Le bruit oblige l’attaquant à calculer des probabilités, à quantifier l’incertitude et à examiner soigneusement les hypothèses de départ
- Même sans garantie formelle, l’aléatoire est utile pour l’évitement de divulgation et rend les attaques bien plus difficiles
- Supprimer l’aléatoire rend les attaques triviales

Pourquoi cela arrive

Les motivations sont inconnues
On ne sait pas si l’objectif est d’aider de futurs efforts de gerrymandering en forçant le recensement américain à publier des statistiques permettant une véritable réidentification
À l’inverse, on ne sait pas non plus si l’objectif est d’empêcher la publication de données démographiques utiles afin que les chercheurs ne puissent pas mettre en évidence des écarts injustes au sein de la population
Le rasoir de Hanlon offre une autre interprétation
La publication de données statistiques implique un compromis fondamental entre vie privée et utilité, et ce compromis est gênant
La situation serait bien plus simple si publier beaucoup de statistiques n’entraînait pas automatiquement un risque élevé pour la vie privée
La confidentialité différentielle rend ce compromis explicite, et donc impossible à ignorer
Interdire la confidentialité différentielle peut être une manière de faire comme si le problème n’existait pas, en espérant qu’il disparaisse

1 commentaires

GN⁺ 2026-06-14

Commentaires sur Hacker News

J’ai travaillé comme agent recenseur lors du dernier recensement, et la confiance de la communauté était déjà faible, avec pas mal de rencontres intéressantes
En affichant un visage aimable tout en collectant des données assez intrusives, je croyais sincèrement que ces données seraient utilisées et gérées de manière responsable
Maintenant que le pare-feu qui empêchait l’armement et la marchandisation de données publiques sensibles s’est effondré, j’ai de la peine pour les personnes qui feront du porte-à-porte en 2030, et encore plus pour celles qui fourniront volontairement des informations susceptibles de leur nuire
Je trouve aussi amusante la réaction disant que « ce recensement coûteux devrait simplement compter les têtes ». Les données collectées constituaient une base de référence importante de compréhension commune, et cela ne présage rien de bon pour leur qualité à l’avenir
Pour information, on m’avait surtout affecté à des foyers non répondants, donc j’ai naturellement eu l’impression que les gens de mon secteur détestaient le gouvernement, ignoraient des tracts bizarrement menaçants, ou venaient d’emménager et ne connaissaient pas les occupants pendant la période de recensement
- C’est vrai rien qu’avec les produits de données du recensement, mais les données démographiques servent en fait de base d’extrapolation à pratiquement toutes les autres enquêtes
  Du sondage national avec des dizaines de milliers de répondants jusqu’à la petite enquête communautaire locale, tout repose là-dessus
  Les résultats du recensement, qui obtiennent la participation la plus diverse, apportent aux États-Unis une récompense presque illimitée et profitent à tout le monde, des journaux nationaux aux comtés ruraux
  Si les plus petites communautés perdent même la confiance résiduelle qui leur reste dans la protection de la vie privée du recensement, ce sont elles qui perdront le plus sur tous ces plans
- J’ai fait un travail similaire, et cela résume très bien le ressenti. Reconstruire cette confiance est vraiment triste et difficile
  Et il est aussi décourageant de voir les gens continuer à être attirés par un parti qui dit fièrement vouloir détourner ces données
- À mon avis, le vrai déclin a commencé après Edward Snowden, quand les révélations sur la NSA ont commencé à sortir
  Cela a fortement alimenté la défiance envers l’État, et faire répondre les gens aux enquêtes était déjà difficile
  On comprend pourquoi une personne ordinaire aurait du mal à croire que le Census Bureau protège réellement ses données
  Quelle que soit la loi ou la Constitution, dès qu’on travaille pour une agence, on apparaît vite comme faisant partie du gouvernement. Les taux de réponse continuent de baisser, et maintenant le président s’attaque même aux statistiques économiques
  D’un point de vue cynique, on a l’impression qu’ils vont continuer à réduire les services statistiques et à rendre les statistiques encore plus inutiles. Ce changement de politique va dans ce sens, et finira probablement par être transféré au privé
  Mais le secteur privé ne peut pas faire le travail que fait l’État sur le terrain
- Un pays mène un recensement pour comprendre très en détail dans quel état se trouvent les personnes qui le composent
  Il faut des informations exactes pour élaborer des plans d’amélioration et rendre la vie meilleure pour tout le monde
  L’attitude consistant à dire « il suffit de compter les têtes » révèle de manière intéressante la façon de penser de beaucoup de gens aujourd’hui
  On dirait soit qu’ils ne veulent pas améliorer la vie, soit qu’ils ne peuvent même pas imaginer comment le faire. C’est vraiment triste
Lors de la convention du Parti républicain du Texas cette semaine, il a été proposé par amendement d’ajouter au projet de programme une formule opposée à la confidentialité différentielle
Selon l’exemple donné par quelqu’un qui disait avoir participé au recensement, une seule personne sans domicile sous un pont pourrait devenir cinq à cause de la confidentialité différentielle, ce qui aurait été présenté comme absurdité de bon sens
Je ne sais pas si cela a été adopté, mais c’est à ça que ressemble la pression de terrain qui pousse ce genre de choses
- Comment sais-tu que c’est du terrain ?
Je trouve cela assez triste. Idéalement, un État devrait pouvoir voir comment sont composées les personnes qui existent actuellement, afin que nous puissions prendre de bonnes décisions sur l’organisation que nous faisons fonctionner ensemble
Détériorer délibérément l’infrastructure de collecte de données me paraît être une erreur qu’on regrettera plus tard
Une grande part du succès américain vient, selon moi, de bonnes institutions capables de traiter des données fines. Elles permettaient d’ajuster plus vite les politiques aux résultats
Je comprends pourquoi des gens veulent réduire toutes les capacités de l’État. Ils ont le sentiment que le gouvernement est rempli de leurs opposants et que cette capacité sera utilisée contre eux
Mais plus leur pouvoir relatif diminue, plus leur capacité à surmonter cette inertie diminue aussi, l’État devient moins compétent et, au bout du compte, la vie commence à se dégrader
On n’a pas forcément besoin immédiatement de données au niveau du logement, mais il peut y avoir des exceptions, comme placer les îlots de recensement dans les bonnes circonscriptions électorales. Malgré cela, au-delà d’un certain niveau d’agrégation, il faut utiliser les meilleures informations possibles
- Saboter volontairement une infrastructure est un thème récurrent de cette administration
- Cela n’affaiblit pas le pouvoir de l’État
  Cela le rend simplement plus stupide, au point qu’il n’aura plus les informations nécessaires pour prendre des décisions efficaces plus tard, même s’il essaie de faire la bonne chose
- L’idée de donner les détails aux États fédérés et de les laisser gérer les programmes m’intéresse davantage
  Le niveau fédéral n’aurait besoin que des données agrégées
- Au-delà de cela, cela revient à rendre possible un génocide, comme lorsque le gouvernement américain a brisé le secret du recensement et envoyé des personnes d’origine japonaise dans des camps sur des critères raciaux
  Ce n’est pas une question de « toutes » les capacités de l’État ; l’État ne devrait disposer que de la capacité minimale absolument nécessaire pour accomplir ce qui est nécessaire
  Par exemple, collecter des informations raciales n’est absolument pas nécessaire, donc cela ne devrait pas être fait
  Parce qu’à l’avenir, le gouvernement peut être rempli d’opposants. Plus largement, les plus grands torts causés par les acteurs étatiques sont régulièrement venus de tentatives de « faire le bien » plutôt que d’une malveillance délibérée
- Cet article porte sur une décision qui abîme moins le recensement
  Si tu considères qu’un recensement précis est important, tu devrais plutôt t’en réjouir
Quel que soit ce qu’on fait, le recensement repose sur un certain niveau de confiance
La confiance que ces données ne seront pas identifiables au point de pouvoir servir à des fraudes, des escroqueries financières ou d’autres abus
Pourtant, à New York, les registres de vente immobilière sont publics, et l’un des effets pervers est que beaucoup de sociétés de crédit hypothécaire envoient des courriers déguisés en factures
La confidentialité différentielle est absolument nécessaire, et le fait que des chercheurs en sciences sociales ne puissent pas reconstruire les données au niveau individuel est un résultat intentionnel
Pour la plupart des usages, une description macroscopique suffit, et exiger davantage revient à réclamer un État de surveillance
- Franchement, cela ressemble davantage à un échec de l’application des règles et à un échec de conception du système financier
  En Allemagne, il n’est pas courant qu’un prêt hypothécaire ou la banque qui le détient soit revendu comme une patate chaude à un autre pigeon, donc recevoir ce genre de courrier susciterait immédiatement la méfiance
Il faut l’interdire dans les jeux de données, et l’ajouter au stade de l’analyse. On peut alors choisir le type de bruit souhaité.
Je ne saisis pas bien les implications politiques ici, mais à un certain niveau il faut une vraie valeur de référence, y compris « cette personne / ce foyer a refusé de répondre ».
En revanche, publier les données brutes ressemble à une manière de se tirer une balle dans le pied du point de vue de la sécurité nationale, et il y a aussi beaucoup d’autres raisons de ne pas le faire.
- Je ne sais pas exactement ce que propose la mesure, mais si on ajoute du bruit indépendamment pour chaque personne, on peut le réduire en achetant plusieurs copies et en faisant la moyenne.
  Il y a énormément de façons de mal faire cela, et c’est pourquoi la confidentialité différentielle a fait l’objet d’autant d’analyses.
- Le bruit est ajouté aux données publiques, pas aux données non publiques.
Plutôt que de dire que la confidentialité différentielle rend ce compromis explicite et impossible à ignorer, on peut aussi dire qu’il ne faut pas sacrifier l’un des deux objectifs au motif que l’autre aurait plus de valeur.
Les réactions du type « il faut tout publier » me surprennent, parce qu’elles relèvent d’une pensée unidimensionnelle au mauvais sens du terme.
Le recensement ne fait que poser des questions.
Si l’on commence à publier et à instrumentaliser des données sur des personnes ayant des caractéristiques diverses, les gens vont simplement mentir ou ne pas répondre.
On se retrouve alors avec des données pires que pas de données du tout, parce que les gens vont essayer d’agir à partir de ces mauvaises données.
- Il suffit de collecter les données au départ, quand les gens ne savent pas ou ne s’en soucient pas, puis de les instrumentaliser ensuite.
  C’est arrivé au moins une fois récemment dans un autre pays, donc je ne pense pas que cette inquiétude soit une réaction excessive.
- L’acteur qui instrumentalise les données, c’est précisément le gouvernement américain.
  L’exemple le plus évident est le fait que le Census Bureau a établi, pendant la Seconde Guerre mondiale, des listes de personnes d’origine japonaise qui ont servi à leur internement.
  À mon avis, la vraie dynamique aujourd’hui consiste à établir des listes pour priver des gens de leur droit de vote.
- La solution la plus simple consiste à réduire la résolution et la portée des données au strict nécessaire.
  Le recensement existe pour fournir des informations servant à déterminer la représentation. Le reste est accessoire.
  On peut conserver des données au niveau du comté ou de la circonscription, mais plus la résolution augmente, plus il faut supprimer de données, jusqu’à ne laisser au niveau du quartier ou de l’îlot que le nombre d’habitants.
  Connaître la race, l’origine ethnique ou le milieu socio-économique des habitants d’un îlot ne sert qu’à les discriminer.
- La vraie question est de savoir pourquoi, au départ, les gens répondent à ce type de questions.
  Moi, j’attends qu’un agent recenseur se présente et je lui dis seulement combien de personnes vivent à mon adresse.
  C’est nécessaire pour une représentation électorale correcte, et pour le reste ce n’est pas nécessaire du tout.
- Cette administration ne s’intéresse absolument pas aux faits.
Il est trop difficile de concilier tout cela.
On dit que le recensement de 2020 a adopté la confidentialité différentielle, et que si l’on retire ce seul filtre, cela entraînera des « conséquences terribles » pour l’utilité, la confidentialité, ou les deux.
Pourtant, on fait des recensements depuis des siècles et cela se passait bien, et on n’a ajouté un élément de protection de la vie privée qu’au dernier recensement.
Si en retirer un provoque soudain une situation terrible, c’est étrange. Comme il n’y avait pas ce type de protection auparavant, on pourrait penser qu’on est en réalité dans une situation bien meilleure qu’il y a des siècles.
Cela donne donc l’impression d’un problème exagéré sur le plan émotionnel.
- Aussi incroyable que cela puisse paraître, les techniques mathématiques et la puissance de calcul ont progressé au cours des derniers siècles, et tout est aussi devenu numérique.
  Des attaques contre la vie privée qui étaient autrefois impossibles pour des raisons de coût sont désormais réalisables pour presque rien.
  De plus, comme cela a été souligné, des gens utilisent déjà les données du recensement pour le charcutage électoral ; ces attaques sont donc réelles et existent depuis longtemps.
- Un objet important qui n’existait pas il y a 100 ans et qui existe aujourd’hui, c’est l’ordinateur.
  Autrefois, on pouvait considérer que reconstituer des dossiers individuels n’était pas réaliste, du moins à grande échelle. Aujourd’hui, on ne peut plus le considérer ainsi.
  Un code à 4 chiffres aurait peut-être été sûr pendant des siècles, mais aujourd’hui, pour la même raison, ce serait une faute de sécurité.
- Comme la plupart des inquiétudes liées à la vie privée, cela ressemble d’abord à une hypocondrie imaginaire exagérée, puis à un moment cela ne l’est plus.
- Les progrès de l’informatique, de la science des données et de l’apprentissage automatique expliquent presque tout.
  Beaucoup de techniques utilisées aujourd’hui pour réidentifier des données nécessitent une puissance de calcul qui n’était pas disponible autrefois.
  Même quand c’était possible, les ressources en limitaient l’ampleur. Je dis cela en tant que diplômé en statistiques.
  Il y a aussi l’effet de la connectivité. Avec Internet, les réseaux sociaux, le pistage web et le piratage, il existe beaucoup plus de sources de données à croiser.
  Dans les années 1970-80, les traces documentaires des Américains étaient dramatiquement moins nombreuses qu’aujourd’hui.
- Comme l’article le dit clairement, des mécanismes de protection de la vie privée existaient dans le recensement depuis 1990.
  Simplement, les protections précédentes n’étaient pas solides et pouvaient être contournées, d’où leur remplacement par des mécanismes plus robustes.
  1990 correspond justement à la diffusion des ordinateurs personnels et à l’explosion de la puissance de calcul accessible aux particuliers, ce qui a rendu possible l’extraction d’informations personnelles à partir des données publiées par le recensement.
  C’est à ce moment-là que le problème est apparu. Ce n’est pas un problème exagéré.
Du point de vue de quelqu’un venant d’un certain pays européen, on ne peut pas savoir quelles réponses à un recensement poseront problème.
« Quelle est votre religion ? » peut sembler totalement inoffensif, mais quand un occupant étranger, dans les années 1940, a pu relier cette réponse à des individus, c’est devenu rétrospectivement une réponse fatale.
- Un tel occupant étranger ne demanderait-il pas simplement les données brutes non modifiées ?
- Le recensement américain ne pose pas de question sur la religion.
  En 2020, les questions portaient sur le nombre de personnes vivant ou séjournant dans cette maison, cet appartement ou ce mobile home au 1er avril, sur l’éventuelle omission d’autres personnes, sur le type de logement, le numéro de téléphone, le nom de la personne 1, son sexe, son âge et sa date de naissance, son appartenance ou non à un groupe hispanique, latino ou espagnol, et sa race.
  Il n’y a pas grand-chose non plus qui empêche de mentir.
- Aux États-Unis, demander la religion dans le cadre du recensement est contraire à la loi.
  Nul ne doit être contraint de divulguer des informations concernant ses convictions religieuses ou son appartenance à une organisation religieuse.
  https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
- La France a autrefois produit énormément de listes. Elle aimait les listes, et les considérait comme une bonne chose.
  Elle a aussi dressé des listes de Juifs, au cas où cela pourrait servir un jour, et les Allemands ont été très contents de les trouver.
  L’obsession des États-Unis à demander aux gens leur origine perçue, par exemple AAPI, AA, Latino, etc., dépasse l’étrangeté pour devenir ouvertement dangereuse.
  Il ne faudrait pas poser ce genre de questions, et il ne faudrait jamais les enregistrer avec le nom.
  Heureusement pour eux, il leur suffit maintenant d’acheter ces données à des courtiers en données et de laisser Palantir faire le ciblage ; c’est donc encore plus simple pour eux.
- « Quelle est votre religion ? » n’a, à mon avis, absolument aucun sens dans un recensement.
Je pense qu’affirmer que la protection différentielle de la vie privée rend les arbitrages explicites, c’est en réalité prendre le problème à l’envers
Des techniques comme la protection différentielle de la vie privée masquent l’existence même de ces arbitrages à tous sauf à une petite minorité d’experts qui vivent et respirent ce domaine
Je n’en sais pas assez pour défendre cette décision, mais s’il existe réellement un arbitrage, alors empêcher l’accès à ce type de techniques amènera aussi des personnes non statisticiens à y être confrontées
Si des données sur le public sont suffisamment risquées pour qu’il faille en travestir les résultats, alors ce sont peut-être des données qu’il ne faudrait pas collecter dès le départ
Les données privées des gens sont régulièrement divulguées de manière involontaire. Les historiques de visionnage Netflix et les dossiers médicaux en sont des exemples typiques
Les gens sous-estiment constamment la quantité d’informations qui fuit, donc ils évaluent mal ces arbitrages
Il est donc préférable d’imposer qu’il ne s’échappe qu’une quantité d’informations sûre
Dans certains cas, il vaudrait mieux ne pas partager ni collecter les données, mais ces données ont une valeur évidente, donc la quantité optimale à stocker et à publier n’est pas de 0
Personnellement, je pense qu’une des grandes raisons pour lesquelles la data science, en tant que fonction organisationnelle majeure dans les entreprises technologiques, a perdu de son influence, c’est la tendance à traiter les équipes data science comme des gardiens des données
À force d’externaliser la responsabilité du raisonnement statistique, on finit avec l’étrange sentiment de pouvoir d’une seule personne qui tranche d’abord les arbitrages, sans que les autres autour d’elle aient besoin de vraiment les comprendre
En suivant cette logique, personne ne devrait jamais collecter d’adresse, pour aucune raison
Si l’on ne peut ni échanger ni collecter des informations personnellement identifiables dans aucun contexte, comment la société est-elle censée fonctionner ?
L’anonymisation et la sécurité sont essentielles, et elles rendent possibles de nombreuses fonctions importantes
Dans un monde où l’on ne fournit ni ne collecte jamais d’informations potentiellement risquées, comment recevrait-on le courrier ?

Interdiction de l’injection de bruit dans les produits statistiques publiés par le Census Bureau

Contexte

Confidentialité différentielle et recensement de 2020

Baisse d’utilité et réactions

Contenu de l’ordre

Impact réel

Place de la confidentialité différentielle

D’autres techniques utilisent aussi l’aléatoire

Limites de la généralisation et de la suppression

Pourquoi le bruit complique les attaques

Pourquoi cela arrive

À lire aussi

1 commentaires

Commentaires sur Hacker News