L’ère du stockage des données personnelles est arrivée

(blog.muni.town)

10 points par GN⁺ 2025-10-06 | 1 commentaires | Partager sur WhatsApp

Le concept de stockage des données centré sur l’utilisateur, proposé par le créateur du Web Tim Berners-Lee, est en train de devenir réalité
Son idée initiale, le protocole Solid, vise une architecture dans laquelle les individus possèdent directement leurs données, et les applications n’y accèdent qu’avec leur autorisation
Plus récemment, le protocole AT de Bluesky évolue dans la même direction et met en œuvre un web social décentralisé où les données sont stockées sur des serveurs personnels (PDS)
Ce stockage personnel des données va au-delà de la seule implémentation technique et s’étend à des structures détenues et gérées par les citoyens sous forme de coopératives de données (Data Coop)
En fin de compte, il s’agit d’un mouvement visant à rendre le Web à nouveau aux individus, une tentative de refondre en profondeur une architecture d’Internet dépendante des plateformes

La vision de Tim Berners-Lee : Socially Aware Cloud Storage

En 2009, Berners-Lee a proposé « Socially Aware Cloud Storage », une spécification du Web conçue pour que les applications fonctionnent au-dessus d’une couche de stockage indépendante
- Les utilisateurs sont gérés via des identifiants globaux basés sur des URI, avec un contrôle d’accès sous une forme standardisée
- Les dépôts de données sont séparés des applications et définis comme des ressources génériques et interchangeables

L’apparition et l’évolution du protocole Solid

En 2015, Tim Berners-Lee a obtenu un financement pour le développement du protocole Solid et a mené des recherches au MIT
- L’objectif de Solid est de construire une architecture Web qui redonne aux utilisateurs la propriété de leurs données et permette de passer librement d’une application à l’autre
- Les utilisateurs gèrent leurs données en un seul endroit, et les applications doivent les demander avec leur consentement
Solid a évolué en spécification Web officielle du W3C, mais n’a pas encore atteint une adoption grand public
- Inrupt, cofondée par Berners-Lee, poursuit sa commercialisation principalement sur le marché des entreprises

Le protocole AT et les serveurs de données personnels (PDS)

Le protocole AT (Atproto), développé par l’équipe de Bluesky, alimente aujourd’hui un réseau social ouvert utilisé par plus de 30 millions de personnes
- Bien que sa structure technique diffère de celle de Solid, il repose sur la même philosophie de stockage des données sous souveraineté de l’utilisateur
- Dans le protocole AT, les données personnelles sont stockées sur un Personal Data Server (PDS), un concept proche du « Pod » de Solid
Les utilisateurs peuvent utiliser leur propre domaine comme identifiant Internet afin de conserver une identité indépendante d’un réseau social à l’autre
- Exemple : une structure où un domaine personnel sert d’identifiant, comme @alice.com

L’essor des coopératives de données (Data Co-op)

La majorité des utilisateurs ordinaires préfèrent encore un stockage institutionnel dans le cloud à un PC personnel
Une transition vers des banques de données détenues collectivement par leurs membres est en discussion, sur le modèle des coopératives de crédit des banques traditionnelles
- Il s’agit d’une application du modèle de Credit Union aux données, avec au cœur une gestion transparente centrée sur les membres
Des plateformes coopératives de données comme social.coop, data.coop et cosocial.ca sont déjà activement exploitées dans l’écosystème du fediverse
- Le nouveau projet Northsky se prépare lui aussi comme institution de données collective basée sur le réseau AT
Ces organisations n’ont pas nécessairement besoin d’être des coopératives au sens juridique ; cela inclut toute forme assurant une gestion des données démocratique et transparente

Un nouveau paradigme de souveraineté des données

Lorsque les données sont stockées dans des institutions contrôlées par les citoyens plutôt que par des entreprises, le centre de gravité du débat sur la propriété des données se déplace
- La question n’est plus « quelles données pouvons-nous télécharger ? », mais « quelles données les plateformes peuvent-elles copier depuis nos serveurs ? »
Les échanges techniques entre Solid et AT se développent également, et les discussions sur l’interopérabilité avec des standards comme ActivityPub sont actives
Le stockage personnel des données s’est désormais élargi au-delà d’un protocole particulier ; les formats de données sont convertibles et les protocoles interchangeables
L’essentiel est qu’en contrôlant ses propres données, chacun obtienne la liberté de restaurer son identité numérique même en cas d’effondrement d’une plateforme

Conclusion : rendre le Web à nouveau aux individus

Le stockage personnel des données n’est pas une technologie, mais un retour à une philosophie de l’Internet
Nous nous éloignons d’un Web centré sur les plateformes pour aller vers une structure où les individus et les communautés possèdent et exploitent directement leurs données
Les différentes tentatives autour de Solid, AT et ActivityPub convergent toutes vers le même objectif — rendre le Web à nouveau à ses utilisateurs

Liens de référence

1 commentaires

GN⁺ 2025-10-06

Avis Hacker News

Je participe à un projet FOSS appelé Blobcache
https://github.com/blobcache/blobcache
Je pense qu’il y a une différence fondamentale entre le fait qu’un serveur stocke l’état d’une application, et le fait qu’il ait le droit de le modifier ou de lire les données
À l’avenir, les serveurs devraient simplement conserver mes données en sécurité, tandis que les clients devraient devenir plus intelligents
Quand j’utilise une app, je veux récupérer depuis le serveur un état chiffré de bout en bout, le modifier, puis réenregistrer sur le serveur les nouvelles données chiffrées
Le serveur ne devrait être responsable que de la durabilité des données, et il ne serait même pas nécessaire de lui faire confiance pour bien remplir ce rôle
Blobcache fournit une API permettant à des serveurs de stockage « stupides » et à des clients « intelligents » d’effectuer des transactions avec un état E2EE
On peut installer Blobcache et un VPN comme Tailscale sur du vieux matériel pour déplacer facilement les données d’autres appareils
La configuration ressemble à SSH : il suffit d’ajouter une clé au fichier de config pour obtenir l’accès
La plupart des irritants liés à l’utilisation du stockage disparaissent
Je suis en train de construire avec Blobcache un outil de gestion de versions E2EE de style Git pour l’ensemble du répertoire personnel d’une maison
https://github.com/gotvc/got
- La façon dont les apps utilisent les données E2EE dans Peergos est très proche de Blobcache
  J’aimerais vous contacter, ce serait bien de collaborer
  https://peergos.org/posts/a-better-web
- Il peut aussi être utile de noter qu’il existe https://remotestorage.io/ pour le stockage par utilisateur
D’après ce que j’ai lu, je pense que ce genre de proposition ne passe pas le test de l’évolution
Pour mettre une idée en œuvre à grande échelle, il faut améliorer progressivement la situation actuelle étape par étape, plutôt que viser directement un objectif lointain
La situation actuelle est déjà assez proche d’un optimum local élevé, et ceux qui proposent de nouveaux modes de contrôle de l’information n’ont jusqu’ici présenté que des approches très coûteuses ou très lourdes
Il n’est pas nécessaire de connaître tout le processus, mais au moins les deux premières tentatives doivent aller dans une meilleure direction que la situation actuelle
En gros, si on veut finir par voler, il faut d’abord faire évoluer les plumes
- Je pense qu’une trajectoire réaliste d’évolution serait la suivante
  - En utilisant Bluesky pour chatter comme alternative à Twitter, on se familiarise avec le Fediverse et on obtient un PDS (service de données personnelles)
  - En stockant ses informations de paiement dans ce PDS, on peut d’abord offrir une nouvelle expérience où le client soumet lui-même ses données de paiement côté client
  - À l’étape suivante, il devient naturel que les commerçants fournissent un jeton leur permettant de récupérer les informations de paiement depuis mon PDS
    Pour les premiers magasins qui l’adoptent, cela réduit la charge liée au stockage de données PCI/PII, ce qui crée une incitation à l’adoption
  - À mesure que davantage d’utilisateurs et de commerçants s’habituent à ce modèle, l’idée que les utilisateurs contrôlent directement leurs données et que c’est préférable à l’UX pénible actuelle, comme l’impossibilité d’annuler facilement un abonnement, se diffuse
  - Si stocker ses informations de paiement dans un PDS devient aussi simple que dans le navigateur, avec des avantages supplémentaires, la demande augmentera et l’adoption s’accélérera
  - Si, techniquement, les sites peuvent fournir leurs services sans stocker de PII/PCI, alors il devient réaliste d’adopter des lois interdisant ce stockage
- À chaque étape, on a l’impression d’une amélioration par rapport au système actuel
- Je suis d’accord avec l’idée qu’il ne faut pas un grand bouleversement d’un coup, mais des améliorations perceptibles à chaque étape
  Du point de vue d’un utilisateur lambda, le simple fait de « posséder ses données » lui donnera-t-il vraiment le sentiment que l’UX s’est améliorée ?
  Si cela s’accompagne de moins de publicité et de produits réellement conçus dans l’intérêt de l’utilisateur, il y a peut-être une chance
  Je m’inquiète un peu du fait qu’il reste énormément de travail peu rentable à faire, mais malgré tout je reste optimiste
- Aujourd’hui, 99,9 % des utilisateurs de Bluesky n’utilisent que le service Bluesky, mais Bluesky dispose d’un Personal Data Service (PDS) pour chaque utilisateur
  On peut à tout moment retirer ses données de Bluesky pour les déplacer ailleurs, et récemment il est même devenu possible de les retransférer vers Bluesky
  Chacun peut stocker dans son propre PDS les données qu’il souhaite, par exemple des données git via https://tangled.org, l’historique d’écoute musicale via https://teal.fm, ou encore un blog via https://leaflet.pub
  Les cas d’auto-hébergement ou d’hébergement communautaire de PDS augmentent rapidement
  Les serveurs relais qui agrègent et relient les données PDS progressent aussi, et même si l’exploitation d’une couche d’agrégation assurant une connectivité réseau complète est plus difficile, elle s’améliore peu à peu
  Par rapport à l’architecture existante, c’est clairement une innovation, et l’enthousiasme visible des développeurs donne une vraie impression d’élan
  La séparation de l’architecture permet des progrès dans de nombreux domaines, et les fondations sont solides, donc la scalabilité est élevée
  On a vraiment l’impression qu’une expérimentation évolutionnaire est en cours, ce qui suscite beaucoup d’attentes
J’aime énormément le concept de stockage de données personnelles et j’aimerais que cela devienne le choix par défaut
Mais il existe peut-être un problème techniquement impossible à résoudre
Par exemple, ce texte ne mentionne pas les « schémas » (schema), alors que c’est un facteur majeur qui freine réellement la portabilité des données
J’ai moi-même constaté à quel point il est difficile de modifier le format des champs, même dans une simple app CRUD
On peut exporter ses données depuis Google ou Facebook, mais reproduire la façon dont ces données étaient affichées et utilisées dans l’app d’origine est si difficile que cela revient presque à recréer toute l’UI d’origine, et si le schéma du service source change, cela entraîne des problèmes de rendu ou d’intégration, voire des pertes de données
Dans des silos de données indépendants, on peut modifier librement les formats, mais si plusieurs stockages changent chacun leur schéma indépendamment, la synchronisation devient au final presque impossible et le risque de perte de données augmente fortement
En outre, l’autorisation et la vérification d’identité par schéma sont aussi un casse-tête
Par exemple, il faut parfois limiter A à la consultation de certains champs seulement, mais lors de la synchronisation entre plusieurs serveurs, certains ne savent même pas qui est userA, et les données sont alors traitées comme si elles n’existaient pas
Dans un système distribué, la confiance, l’identité et les procédures d’audit rendent le contrôle d’accès fin vraiment difficile
Quand on regarde les posts en tête de Hacker News ces derniers temps, on voit souvent revenir des discours du genre « reprenons le web » ou « faisons renaître l’auto-hébergement, la fédération, etc. comme dans les années 90 »
Dans la réalité, on a l’impression que rien ne change et que tout empire, tandis qu’arrivent sans cesse de nouvelles générations qui n’ont jamais connu l’atmosphère de l’internet des années 90 ou d’avant les appareils mobiles
Aujourd’hui, dès qu’on s’inscrit quelque part, on ne fait que multiplier des copies inutiles de données personnelles dans d’innombrables bases de données à travers le monde, pour qu’elles finissent plus tard piratées, mal utilisées, revendues ou abandonnées
Je ne sais même pas s’il existe une solution, et parfois j’ai l’impression qu’il serait plus facile de faire le tour de la Terre à l’envers
- En Europe, ces questions de données personnelles sont en réalité presque déjà réglées
  Les lois ont un impact concret, si bien que les vraies entreprises ne peuvent pas stocker ou vendre illégalement des données n’importe comment
  Mais les gens semblent ne voir que l’aspect superficiel des bannières cookies et ne perçoivent pas vraiment les résultats obtenus
  En pratique, l’Europe est en train de mener la transformation du monde numérique de façon à améliorer la qualité de vie des citoyens
  Par exemple avec des biens publics comme les virements bancaires instantanés sans frais
- Si même nous, qui avons connu une époque différente, nous renonçons en disant que « rien ne changera », alors rien ne changera vraiment
  En réalité, aujourd’hui, il n’a jamais été aussi simple ni aussi facile de créer des alternatives open source et auto-hébergées
  Les personnages typiques de l’internet des années 90 existent toujours, et continuent d’être en ligne à l’ancienne
  Si l’internet est aujourd’hui bien plus simple et accessible, c’est surtout parce qu’il est utilisable sans effort par la grande majorité des gens, qui n’y voient ni plaisir ni magie
  Décrire en permanence l’environnement en ligne actuel comme quelque chose de foncièrement mauvais revient à dénigrer les services et communautés qui ont encore de la valeur
  Les services existants ne sont peut-être ni élégants ni cool, mais ils existent toujours et remplissent toujours un rôle
- À la question de savoir comment éviter que les données personnelles soient copiées à outrance, abandonnées, piratées ou revendues,
  je pense qu’on ne progressera que si les données sont perçues par leur détenteur comme une « dette risquée »
  Par exemple, il faudrait que des événements du type « Megabank fait faillite après une fuite de données, dirigeants emprisonnés » deviennent courants pour que l’attitude vis-à-vis de la gestion des données change totalement
  Tant qu’on reste dans le schéma actuel du « encore une fuite de données, cette fois-ci avec LifeLock gratuit ! », il est difficile de faire évoluer les mentalités
- Si l’exemple évoqué n’est pas une simple illusion, c’est parce que Bluesky et AT-net sont de vrais réseaux en fonctionnement, suffisamment influents dans le monde réel pour être menacés par plusieurs États autoritaires
- La solution que j’ai trouvée la plus convaincante et la plus solide sur ce sujet est Solid, le standard créé par Tim Berners-Lee, l’inventeur du web
  [https://en.wikipedia.org/wiki/Solid_(web_decentralization_project)](https://en.wikipedia.org/wiki/Solid_(web_decentralization_pr...)
  Je pense que cela lui donne toute la légitimité nécessaire pour changer la structure des données sur internet, et la technologie Solid elle-même est assez solide
  Ce qui est regrettable, c’est qu’elle ne se soit pas davantage diffusée
  C’est probablement parce que le web existant est trop énorme et que la majorité des stacks techniques actuelles n’ont pas été conçues sur le principe d’une « véritable propriété des données »
  Il ne s’agit pas simplement de remplacer quelques bibliothèques, mais de repenser en profondeur le développement et le traitement des données, ce qui crée une vraie barrière à l’adoption
  L’équipe Solid comprend bien ces problèmes et a produit de bons outils et bibliothèques pour faciliter progressivement l’adoption dans de nouveaux projets
  C’est pourquoi j’ai de grandes attentes quant à l’avenir et à l’extensibilité de Solid
Je ne suis pas d’accord avec l’idée selon laquelle, au lieu d’être dispersées entre plusieurs entreprises ou sites, mes données seraient « en un seul endroit sous mon contrôle »
Dans la réalité, dès qu’on met ses données sur un site, ce site peut les copier ou les vendre comme il veut, et il n’existe pas vraiment de moyen fiable de l’en empêcher
Au fond, cela ne fait que déplacer vers l’utilisateur la responsabilité de la portabilité et de l’interopérabilité des données, ainsi que du blocage et de la gestion du spam
Je n’ai pas l’impression que cela règle le problème fondamental de la vie privée ou de la maîtrise de qui peut voir mes informations
Même si je ne fournis mes données qu’au site A et pas au collecteur de données B, rien n’empêche A de les vendre à B
En pratique, la situation ne serait donc pas différente d’aujourd’hui
Pour ne garder ses données qu’en un seul endroit, il faudrait ne rien partager du tout avec des sites ou services externes, ce qui est irréaliste
- Il n’existe certes pas de moyen de l’empêcher, mais ce qu’un tiers emporte, au moins, ce n’est qu’une « copie »
  La propriété de mes données reste entre mes mains, et il devient beaucoup plus simple d’y accéder directement, de les partager, de les sauvegarder et de les analyser depuis un seul endroit
  Cela aide énormément à libérer les données du lock-in
  Il n’est pas impossible non plus de déterminer si un tiers a revendu mes données et d’engager une action en justice, et le caractère non propriétaire des formats de données serait également obligatoire
  J’ai le sentiment que ce serait bien mieux que le système actuel
- Si je peux affirmer clairement l’originalité et la propriété de mes données, alors je pense qu’on peut interdire leur revente
  Dans l’Union européenne, on a déjà en pratique le droit d’exiger d’une entreprise la « suppression des données personnelles »,
  et plus il est clairement défini que ces données « m’appartiennent », plus il devient facile de faire valoir ce droit
- Les données récentes ont bien plus de valeur que les anciennes
  Je peux gérer moi-même à qui je fournis quelles données et dans quel but, et activer ou désactiver l’accès quand j’en ai besoin
  La revente de données devrait être considérée comme illégale par principe
  De la même manière qu’il est impensable qu’un avocat ou un médecin vende mes informations, je pense que la même règle devrait s’appliquer à toute personne qui traite des données personnelles
Le désir de tout auto-héberger a toujours existé
Mais cette tendance s’est diffusée parce que la centralisation est plus simple pour les entreprises, et leur permet en plus de monétiser les données
- En réalité, utiliser de grands services comme Facebook, instagram, gmail, etc. est bien plus facile que d’héberger soi-même ses services, et comme tout le monde s’y trouve, il est plus pratique d’y rester soi-même
  Je pense qu’il n’existe pas encore assez de solutions décentralisées réellement accessibles au grand public, et les incitations concrètes restent faibles
  Tant que ce problème d’accessibilité de fond n’est pas résolu, il sera difficile d’inverser la tendance
- Mon expérience avec Plex me donne l’impression que les gens ont bien plus envie d’auto-hébergement qu’on ne le pense, mais qu’ils ont du mal à formuler clairement cette envie
  Plex n’est pas une solution complètement auto-hébergée, mais c’est bien plus proche de cet idéal que des services comme Netflix, et ces derniers temps on voit de plus en plus de personnes, même sans compétences IT très élevées, essayer de configurer leur propre serveur Plex
  Ce n’est pas seulement pour regarder des films gratuitement, mais souvent pour leurs enfants
  Le fait de pouvoir soi-même sélectionner le contenu et contrôler ce que l’enfant regarde rassure beaucoup
  Cela rappelle ce sentiment d’apaisement qu’avaient les parents autrefois quand ils limitaient les chaînes de télévision
  Aujourd’hui, beaucoup de parents trouvent l’internet trop chaotique et trop risqué, et veulent reprendre au moins un peu la main
  J’espère que ce genre de réflexion pourra un jour déboucher sur une dynamique plus utile
Ça fait plaisir de voir mentionné Opera Unite
C’était une idée révolutionnaire : permettre à n’importe qui de créer facilement un petit site statique directement depuis son navigateur, sans connaissances particulières
Si cela avait réussi et installé une culture où les gens partagent librement leur propre contenu, on aurait sans doute aujourd’hui un internet bien plus sain que les réseaux sociaux actuels saturés de marchandisation et de manipulation
J’aime beaucoup le concept de PDS (service de données personnelles)
Mais je pense que la communauté devrait donner une priorité plus élevée à des problèmes comme les fermes à contenu, le spam ou la clarté de la source d’origine
Sans ce type de garde-fous, des acteurs malveillants peuvent facilement faire s’effondrer une architecture fédérée
Le simple exemple du réseau email (SMTP) montre déjà à quel point le problème est grave
Les apps verticalement intégrées coûtent beaucoup moins cher à exploiter
Instagram ne stocke qu’une partie des photos, mais reste extrêmement rentable
À l’inverse, des services de compte comme iCloud n’ont presque pas d’API web et sont en pratique réservés aux appareils Apple, et pourtant les gens acceptent volontiers de payer pour ça, ne serait-ce que pour éviter d’avoir à acheter un iPhone plus gros
Pourtant, il existe peu d’apps fonctionnant indépendamment au-dessus d’un système de fichiers web, pour deux raisons
1. Amazon facture le trafic et la bande passante bien plus cher que le stockage, donc accéder directement à ses données coûte cher si elles ne se trouvent pas physiquement dans le même datacenter
2. Il existe un énorme écart de sécurité et d’utilisabilité entre choisir une seule photo et donner accès à tout un dossier Dropbox
  Au final, les solutions génériques, une fois qu’on les utilise réellement, se révèlent souvent extrêmement lentes ou difficiles à utiliser en pratique à cause des problèmes de vitesse ou de coût
  Et si l’utilisateur paie déjà deux fois pour le stockage, ils sont très peu nombreux à vouloir assumer en plus des coûts de bande passante
J’ai du mal à adhérer à l’idée selon laquelle le discours sur la propriété des données changerait quand elles seraient stockées non plus par des entreprises, mais par des organisations « centrées sur les personnes »
Les entreprises aussi sont des organisations dirigées par des personnes
Elles sont contrôlées par leurs actionnaires via un conseil d’administration, ce ne sont pas des entités pilotées par des extraterrestres ni des systèmes fonctionnant de façon autonome
Cela voulait peut-être simplement dire qu’on s’oppose aux entreprises à but lucratif, dont les clients ne peuvent pas voter directement sur la gestion
Le mot « entreprise » est souvent utilisé comme s’il désignait une force malveillante, mais au fond ce n’est qu’une organisation détenue par un petit nombre de personnes bien précises
Et quand on pense au fait que l’exemple donné, « @alice.com », utilise justement un .com, qui représente ironiquement un espace commercial, cela a quelque chose d’assez curieux
https://en.wikipedia.org/wiki/Institution#Examples
https://en.wikipedia.org/wiki/.com
- En réalité, aujourd’hui, .com évoque plus un domaine « officiel », « par défaut » ou « de référence » qu’un domaine commercial
  Même pour des sites non commerciaux, beaucoup essaient d’abord d’obtenir une adresse en .com

L’ère du stockage des données personnelles est arrivée

La vision de Tim Berners-Lee : Socially Aware Cloud Storage

L’apparition et l’évolution du protocole Solid

Le protocole AT et les serveurs de données personnels (PDS)

L’essor des coopératives de données (Data Co-op)

Un nouveau paradigme de souveraineté des données

Conclusion : rendre le Web à nouveau aux individus

Liens de référence

À lire aussi

1 commentaires

Avis Hacker News