Crise de confiance envers l’intelligence artificielle

(simonwillison.net)

1 points par GN⁺ 2023-12-16 | 1 commentaires | Partager sur WhatsApp

La polémique autour de la nouvelle fonctionnalité d’IA de Dropbox a pris de l’ampleur à cause de la crainte que les fichiers personnels confiés au service puissent être utilisés pour l’entraînement d’OpenAI, ce que Dropbox nie fermement
La fonctionnalité propose des résumés à la demande et un « chat avec vos données » fondé sur la génération augmentée par recherche (RAG), mais en matière de confidentialité de l’IA, des explications générales suffisent rarement à instaurer la confiance
Un interrupteur IA semblant activé par défaut, combiné à une formulation de principe indiquant que les données ne sont pas utilisées pour l’entraînement « sans consentement », peut créer une confusion chez les utilisateurs sur le périmètre du consentement
Même si OpenAI affirme que « les données soumises via l’API ne sont pas utilisées pour l’entraînement », de nombreux utilisateurs ne le croient pas, ce qui crée une structure de défiance proche de la croyance selon laquelle Facebook utilise le micro pour écouter les conversations et cibler la publicité
Les entreprises d’IA doivent rétablir la confiance par des explications transparentes sur les données d’entraînement et les modes de traitement, tandis que les modèles locaux deviennent une alternative plus séduisante face aux inquiétudes de confidentialité

L’essentiel de la controverse autour des fonctionnalités d’IA de Dropbox

Après l’ajout par Dropbox de nouvelles fonctionnalités d’IA, les critiques se sont multipliées, craignant que des fichiers personnels soient transmis à OpenAI et puissent servir à entraîner des modèles
La principale inquiétude portait sur l’éventuelle utilisation des fichiers privés stockés dans Dropbox comme données d’entraînement par OpenAI, ce que Dropbox a fermement nié
Les fonctionnalités reposent sur des résumés à la demande et sur une approche de génération augmentée par recherche (RAG), comme le « chat avec vos données »
Pour un service qui conserve beaucoup de données personnelles, la moindre ambiguïté dans les explications sur la confidentialité de l’IA peut rapidement faire perdre la confiance des utilisateurs

La confusion créée par le consentement et les libellés de paramètres

Les principes d’IA de Dropbox indiquent que l’entreprise s’appuie sur la confiance des clients et la confidentialité des données, et qu’elle n’utilise pas les données clients pour entraîner des modèles d’IA sans consentement
Les paramètres de compte comportaient un interrupteur lié à l’IA, qui apparaissait activé même sur des comptes où il n’avait jamais été explicitement activé
- Environ quatre heures après la publication de l’article, le lien vers ce paramètre a cessé de fonctionner
Il n’est pas clair si cet interrupteur doit être interprété comme un consentement à l’entraînement des modèles
Le mot « consentement » devient très ambigu lorsqu’il se combine avec la réalité des conditions d’utilisation acceptées sans être lues
Beaucoup d’utilisateurs ont compris que les données personnelles confiées à Dropbox pour être protégées pouvaient se retrouver dans le processus d’entraînement d’OpenAI

Les utilisateurs qui ne font pas confiance à OpenAI

Le libellé des paramètres de Dropbox explique, au sujet du partenaire tiers OpenAI, que « les données ne sont jamais utilisées pour entraîner les modèles internes et sont supprimées des serveurs tiers sous 30 jours »
Mais de nombreux utilisateurs ne croient pas OpenAI lorsque l’entreprise affirme ne pas utiliser ces données pour l’entraînement
La controverse dépasse le simple problème des paramètres de Dropbox et rejoint une crise de confiance plus générale autour de l’IA
L’idée selon laquelle « OpenAI entraîne ses modèles sur toutes les données qu’elle voit » occupe une place similaire à la croyance selon laquelle « Facebook écoute les conversations via le micro du téléphone pour afficher des publicités »

Comparaison avec la théorie du complot du micro de Facebook

La théorie selon laquelle Facebook écouterait les conversations des utilisateurs via le micro de leur téléphone pour afficher des publicités existe depuis longtemps
Techniquement, plusieurs éléments permettent de la contredire
- Les systèmes d’exploitation mobiles n’autorisent pas les applications à accéder au micro de façon invisible
- Les chercheurs en confidentialité peuvent auditer les communications entre les appareils et Facebook pour vérifier le comportement réel
- Faire tourner en permanence une reconnaissance vocale de haute qualité à grande échelle serait extrêmement coûteux
Il existe aussi des réfutations non techniques
- Facebook le nie, et le risque de réputation serait immense si un mensonge était découvert
- Cela impliquerait trop de personnes pour pouvoir durer sans lanceur d’alerte
- Facebook dispose déjà de méthodes de ciblage publicitaire bien moins chères et plus efficaces, sans écoute via le micro
- En voyant des milliers de publicités, il peut arriver que certaines coïncident par hasard avec ce qui vient d’être dit
Lorsqu’un utilisateur a l’impression d’avoir vu une publicité liée à ce qu’il venait réellement de dire, ces réfutations perdent de leur force persuasive
L’épisode de novembre 2017 de Reply All, « 109 Is Facebook Spying on You? », concluait que Facebook n’écoutait pas via le micro, mais il est difficile de convaincre les personnes qui y croient déjà

Dans l’IA, l’effet boîte noire nourrit la défiance

Dans le cas de Facebook, les utilisateurs pensent savoir ce qui se passe en s’appuyant sur leur expérience personnelle
Avec l’IA, la situation est presque inverse
- Les modèles sont proches de boîtes noires et sont construits dans le secret
- Il est difficile de savoir quelles données d’entraînement ont été utilisées
- Il est aussi difficile de comprendre quelle influence les données d’entraînement ont eue sur le modèle
Les utilisateurs en viennent à s’appuyer davantage sur l’ambiance et leur ressenti que sur des preuves, et le climat actuel autour de l’IA n’est pas favorable

Pourquoi la crise de confiance est importante

Les soupçons selon lesquels des entreprises mentiraient sur leur manière de traiter la confidentialité sont extrêmement graves
Une société dans laquelle de grandes entreprises peuvent mentir ouvertement sur leur manière de traiter les données sans aucune conséquence n’est pas saine
L’un des rôles importants des pouvoirs publics est d’empêcher que cela se produise
- Si OpenAI entraînait ses modèles sur des données qu’elle avait déclaré ne pas utiliser pour l’entraînement, elle devrait comparaître devant des régulateurs ou faire l’objet de poursuites
- Si Facebook surveillait les téléphones via le micro, il devrait de même être soumis à la régulation et à des poursuites
Croire à des théories du complot infondées comme si elles étaient vraies peut aussi affaiblir l’intolérance sociale vis-à-vis des véritables comportements illégaux des entreprises
La confidentialité est importante, mais facilement mal comprise
- Les gens surestiment parfois, et sous-estiment parfois, ce que font les entreprises et ce qu’elles peuvent faire
- Les technologies d’IA modifient rapidement le champ du possible, ce qui rend le sujet difficile à comprendre même pour les personnes qui le connaissent bien

Ce qu’OpenAI et les laboratoires d’IA peuvent faire

Les grands laboratoires d’IA pourraient rendre leurs méthodes d’entraînement plus explicites
La question centrale est de savoir quelles données OpenAI utilise pour l’entraînement
À l’heure actuelle, la réponse est inconnue, et l’ensemble du processus est très opaque
Dans ces conditions, même si OpenAI affirme que « les données soumises via l’API ne sont pas utilisées pour l’entraînement », il est difficile pour les gens de la croire
ChatGPT lui-même est plus complexe
- OpenAI utilise les interactions avec ChatGPT pour améliorer ses modèles
- Les clients payants ne font pas exception ; l’exception est ChatGPT Enterprise, dont le prix est « sur demande »
Lorsqu’un utilisateur colle un document privé dans ChatGPT pour en demander un résumé, il faut davantage d’explications sur la manière dont les données de ChatGPT sont utilisées pour améliorer les modèles afin de savoir si une partie de ce document pourrait être exposée à d’autres utilisateurs après une future mise à jour du modèle
De la même manière que les grandes plateformes publient des post-mortems après des incidents, les entreprises d’IA peuvent rétablir la confiance par des explications transparentes
- Dan Luu a rassemblé une liste d’exemples de post-mortems sur ce sujet

L’opportunité des modèles locaux

Une tendance qui revient dans cette controverse est que les utilisateurs se sentent plus à l’aise à l’idée de confier leurs données à des modèles locaux exécutés sur leur propre appareil plutôt qu’à des modèles hébergés dans le cloud
La qualité des modèles locaux s’améliore régulièrement, et leur taille diminue
Mixtral-8x7b-Instruct pouvait être exécuté sur un ordinateur portable et a été considéré comme le premier modèle local dont la qualité semblait comparable à celle de ChatGPT 3.5
Phi-2 de Microsoft est un modèle à 2,7 milliards de paramètres
- Beaucoup de modèles locaux utiles commencent à 7 milliards de paramètres
- Phi-2 revendique des performances de pointe par rapport à certains modèles plus grands
- Son coût d’entraînement semble être d’environ 35 000 dollars
Le potentiel des modèles locaux est important, mais il faut éviter une situation où des inquiétudes de confidentialité erronées feraient perdre les avantages des modèles hébergés, plus puissants et plus pratiques

Les conditions du débat sur l’IA et la confidentialité

L’intersection entre IA et confidentialité est un sujet important
Pour mener un débat de qualité, il faut autant de transparence que possible et une bonne compréhension de ce qui se passe réellement
Lorsque les entreprises ne sont pas crues d’emblée, cette discussion devient plus difficile
Les entreprises doivent gagner la confiance des utilisateurs et faire en sorte que ceux-ci puissent comprendre pourquoi elles la méritent

1 commentaires

GN⁺ 2023-12-16

Avis sur Hacker News

Il faut une définition opérationnelle et juridiquement claire de ce qu’est le consentement en matière de protection des données sur les sites web
Il ne faut pas donner l’impression que l’utilisateur consent activement à la collecte, au traitement et au transfert de ses données à des tiers alors qu’en réalité tout a déjà été traité en douce et que le consentement n’est fabriqué qu’après coup
- Ce concept existe déjà, et il a toujours existé. Ça s’appelle la fraude
  Si quelqu’un vous trompe pour vous faire signer un contrat, ce contrat est frauduleux, et si quelqu’un dit qu’il demandera votre autorisation avant de faire quelque chose puis prétend discrètement l’avoir déjà obtenue dans un contrat antérieur, c’est aussi une fraude
  Je ne sais pas quand le système judiciaire est devenu aussi impuissant, mais on ne peut pas en rejeter la faute sur des citoyens laissés sans protection
- Quoi que décident les tribunaux, ce sera juste un levier de plus pour exploiter l’asymétrie de pouvoir entre particuliers et entreprises
  Ce qu’il faut, c’est ramener le droit vers l’esprit du démantèlement des monopoles et du New Deal, écraser les mauvaises influences puis reconstruire
- J’ai été choqué de voir, en me connectant à Dropbox, que le paramètre de partage de mes données avec des sociétés d’IA tierces soi-disant « vérifiées » était activé par défaut
  J’ai envoyé un email WTF au support, mais je vais sans doute fermer mon compte. J’ai du mal à imaginer une réponse qui pourrait me faire trouver ça acceptable
- C’est déjà dans le RGPD. Mais les entreprises s’en moquent, et les autorités de régulation aussi
  Les grandes entreprises ont beaucoup trop de pouvoir et d’influence
L’article est globalement bon, mais l’analogie entre « mon téléphone m’écoute » et « OpenAI peut mentir sur la façon dont il utilise mes données » me semble un peu bancale
Il existe de solides garde-fous pour l’accès d’apps tierces au micro de l’iPhone, alors qu’il n’y a rien d’équivalent quand mes données sont transmises en clair à des tiers. Pour le grand public, les deux peuvent sembler identiques, mais dans le premier cas il reste quand même des protections
On pourrait croire que cette distinction est un détail, mais agir comme si la bataille pour la vie privée et la souveraineté des données des utilisateurs était déjà perdue est extrêmement contre-productif. Je vois souvent des cyniques un peu technophiles réagir à chaque nouvel abus d’entreprise comme si c’était « une vieille histoire », comme si, à moins d’utiliser Tails Linux depuis plus de dix ans, compresser son répertoire personnel pour l’envoyer à une entreprise tech louche et à des data brokers revenait au même
Cette impuissance acquise ne fait pas qu’éroder la confiance, elle donne aussi l’impression qu’un monde meilleur est impossible. L’affaire Dropbox ressemble à un retour de cette mentalité : cette folie consistant à se dire que les utilisateurs s’en moqueront même si on laisse entendre que leurs fichiers privés sont envoyés à des tiers sans qu’on leur demande leur avis
Pour info, j’avais déjà retiré la plupart de mes données de Dropbox pour les migrer vers de l’auto-hébergement, mais hier a été le coup de grâce qui m’a fait résilier complètement mon compte. Merci, Dropbox
- Le texte essayait justement d’aborder la faiblesse de cette analogie
  Dans l’exemple de Facebook, les gens pensent comprendre ce qui se passe à partir de leurs propres observations, alors qu’avec l’IA c’est presque l’inverse. Les modèles d’IA sont d’étranges boîtes noires, conçues dans le secret, sans aucun moyen de comprendre quelles étaient les données d’entraînement ni comment elles ont influencé le modèle
  Je suis totalement d’accord sur le fait que la plus grande menace aujourd’hui, c’est la complaisance. Quand les gens se fabriquent de mauvais modèles mentaux et haussent les épaules en disant « c’est comme ça », il devient beaucoup plus difficile d’améliorer les vrais problèmes
- Il faut bien croire qu’un monde meilleur est possible. La situation actuelle est insupportable, et si demain ne peut pas être meilleur, alors à quoi bon ?
  Il existe clairement de meilleurs et de moins bons choix pour confier ses données et sa vie privée, mais comme il est impossible de savoir qui sont ces acteurs, ou même s’il existe au sens large des acteurs « dignes de confiance », on en vient à agir en partant du principe qu’on ne peut faire confiance à personne
  J’aimerais être moins cynique, mais quand on regarde les 10 à 20 dernières années, le cynisme semble entièrement justifié. Si cette attitude est mauvaise, comment la corriger ?
- Ce n’est pas pinailler sur un détail, c’est un très bon point
  L’accès des apps au micro est contrôlé par le système d’exploitation, et il existe des outils fournis par l’OS permettant à l’utilisateur de voir quelles apps peuvent utiliser le micro et quand
  En revanche, l’accès aux données dans le cloud repose entièrement sur du « faites-moi confiance », et il a déjà été démontré que beaucoup d’entreprises abusaient de cette confiance
- Il y a globalement deux voies. Soit investir les ressources nécessaires pour utiliser des outils open source et auto-hébergés, soit accepter la commodité des services monopolistiques tout en faisant attention à ce qu’on y met
  J’utilise Dropbox, mais tout ce que j’y mets est soit chiffré, soit sans importance même si cela fuit sur l’internet public. J’ai passé beaucoup de temps à bricoler des solutions auto-hébergées, mais à partir d’un certain point j’ai jugé que le gain concret n’était plus si important et qu’il valait mieux consacrer mon temps et mon énergie à autre chose
- Tu peux en dire un peu plus sur ta configuration de stockage auto-hébergée ? C’est quelque chose que je voudrais depuis longtemps
Ce texte me paraît un peu naïf, avec une forte impression de « supposons la bonne foi ».
Quand on regarde ce qui s’est passé hors de l’IA ces dix dernières années, tout le monde dévore les données comme un collectionneur compulsif. Ce n’est pas seulement Google ou Facebook, qui utilisent les données dans leurs produits phares : c’est quasiment tout le monde. Aujourd’hui encore, j’ai vu un mini-site de recettes traditionnelles suédoises que j’utilisais à Noël ajouter des vidéos en lecture automatique et une bannière de consentement aux cookies remplie de dark patterns.
Presque toutes les nouvelles applis et tous les nouveaux sites tournent autour de cet axe économique, et c’est justement au moment où les grands modèles de langage commençaient à devenir puissants que les API tierces se sont soudainement verrouillées en cascade.
L’IA de la génération actuelle, ce n’est pas juste d’autres acteurs qui grignotent les données en douce comme un snack de minuit : c’est plutôt un zombie rapide affamé de sang et de cerveaux. C’est en partie parce que les données jouent un rôle plus direct dans le produit, et aussi parce que la compétition fébrile du capital-risque technologique s’est réveillée à l’idée d’un possible changement de paradigme comme on n’en avait pas vu depuis des décennies.
Tout indique un mélange de zombie apocalypse et ruée vers l’or, avec des excuses qu’on présentera plus tard. C’est pourquoi je crois fermement que tout le monde renforce son discours sur la sécurité et la responsabilité avant la crise de réputation inévitable. Ils accumulent à l’avance des munitions pour brouiller l’eau.
Pourtant, les techniciens ont l’air amorphes, comme s’ils n’avaient pas vraiment vécu les dix dernières années, et pensent que cette fois ce sera différent parce que l’IA a des racines académiques, parce qu’il y a de nouvelles sociétés brillantes, parce qu’il existe un discours sur la sécurité, parce qu’il y a des posts Twitter agressifs de fondateurs « réalistes ».
Je ne prétends pas savoir exactement ce qui se passe en coulisses, mais je suis là depuis assez longtemps pour savoir comment fonctionnent les gens. Et les gens ne se sont pas améliorés.
- Mais les nouveaux géants promettent de ne pas être malveillants...
- Ces entreprises ont déjà volé les données de tout le monde, et les techniciens râlent contre le droit de la propriété intellectuelle tout en disant que tout ce qui est sur l’internet public peut être utilisé sans autorisation.
  Même si c’est peut-être la réalité sur le plan juridique, agir ainsi vous fait toujours passer pour la partie la plus lamentable de l’industrie tech.
Le texte balaie aussi beaucoup trop légèrement le fait qu’il existe des préoccupations de vie privée au-delà de l’entraînement sur mes données.
Je travaille dans un cadre professionnel, et mes clients sont soumis à des accords de confidentialité et à des réglementations sur l’endroit où vont les informations. Je préfère utiliser un service où les données restent simplement sur le serveur plutôt que de multiplier les points de fuite.
À la base, je comprends mal pourquoi mes données ne sont pas toujours entièrement chiffrées tout en restant visibles uniquement par moi. Mais l’idée qu’elles soient activement envoyées par internet à une autre entreprise pour qu’elle les ingère et les traite, sans mon consentement ni mon intérêt, est horrible.
J’utilise souvent les fonctions d’IA quand je choisis de les activer, mais qu’une entreprise envoie mes fichiers personnels un peu partout sur internet sans mon accord, c’est de la folie.
Honnêtement, OneDrive a un outil de migration, donc j’ai pris une version d’essai de Dropbox Business et j’ai fait migrer automatiquement tous mes fichiers la nuit dernière. C’était la goutte d’eau après l’ajout d’encombrements et de pop-ups dans l’interface desktop, et l’absence persistante du chiffrement de bout en bout que je demandais depuis longtemps.
Si vous voulez migrer en quelques clics de Dropbox Business vers un compte Office 365 OneDrive, c’est ici : https://learn.microsoft.com/en-us/sharepointmigration/mm-dro...
- Ce n’est pas seulement un problème d’« IA », c’est un problème plus profond dans toute la dynamique centrée sur le cloud du monde de la tech.
  Le chiffrement homomorphe pourrait être une solution au calcul distribué, mais il faudra encore quelques années avant que cela devienne concret. En attendant, il faut aller vers une sortie du cloud, un retour à l’on-premise, ou des formes de coopératives de cloud privé hybride au sein de cercles de confiance.
  Une autre raison est d’empêcher l’énorme transfert de richesse qui va des individus et des petites entreprises vers le Big Data.
  Je me réjouis de voir diminuer le fantasme d’une IA toute-puissante qui prendrait le contrôle du monde, et de voir mieux comprise une réalité plus banale. L’IA ne fait qu’accélérer des déséquilibres de pouvoir déjà absurdes. Ce qui est privé doit le rester.
- Dropbox a publié cette déclaration hier même : « Si vous avez utilisé les outils d’IA de Dropbox, certains documents et fichiers ont pu être temporairement partagés avec OpenAI ».
  Si vous croyez qu’un fournisseur cloud fait passer vos intérêts en premier, bonne chance. Ici, c’est Hacker News, et on considère que la confiance ne se donne pas d’office : elle se mérite.
- Je suis d’accord dans l’ensemble, mais ne faudrait-il pas chiffrer soi-même les informations sensibles avant qu’elles soient téléversées ou partagées sur un compte Dropbox ?
  Ce n’est pas du chiffrement de bout en bout, mais cela peut empêcher l’entreprise d’utiliser les données chiffrées comme corpus d’entraînement. Peut-être que les collègues, ou les membres de la famille qui ont créé des dossiers et fichiers partagés, ne sont pas assez à l’aise avec la technique pour comprendre le chiffrement ?
- Une meilleure solution consiste à ajouter une surcouche de chiffrement séparée comme Cryptomator au-dessus du stockage cloud utilisé.
  Si vous avez des accords de confidentialité avec des clients, vous ne devriez pas utiliser Dropbox sans chiffrement de bout en bout, et pareil pour OneDrive.
- OneDrive propose du chiffrement de bout en bout ? Si Microsoft ne l’a pas encore fait, j’imagine qu’ils vont bientôt ajouter une fonction similaire.
L’essentiel n’est pas seulement de craindre que les fichiers personnels de Dropbox servent de données d’entraînement pour les modèles d’OpenAI
Quelle que soit l’utilisation, je ne veux pas que mes données soient envoyées où que ce soit sans mon autorisation
Dans ce cas précis, il ne s’agit pas seulement de faire confiance à OpenAI sur le fait qu’ils n’entraînent pas leurs modèles avec nos fichiers, mais aussi sur le fait qu’ils peuvent les traiter en toute sécurité. Je n’ai pas de raison de douter qu’ils disent vrai lorsqu’ils affirment ne pas les utiliser pour l’entraînement, mais le problème demeure
- Formellement, l’affirmation « nous n’entraînons pas les modèles avec les données des utilisateurs » peut très bien être vraie au pied de la lettre, car entraînement peut être interprété dans un sens très précis
  Mais ils peuvent malgré tout effectuer une certaine surveillance des sorties du modèle et, en particulier, l’usage de la génération augmentée par récupération (RAG) sur des fichiers personnels peut clairement provoquer des fuites de données personnelles
  Il est tout à fait raisonnable de ne pas croire que les gens comprennent pleinement les conditions détaillées. Ils ne les comprendront probablement pas en pratique, et s’il y a bien une chose que les entreprises d’IA ont clairement montrée, c’est qu’elles pensent pouvoir utiliser les contenus qu’elles veulent comme elles le veulent, avec ou sans l’accord des créateurs
- Au final, on retombe encore sur la logique des fournisseurs SaaS
  Si vous voulez empêcher un tiers ou même le fournisseur de lire vos données, il faut vérifier qu’elles sont chiffrées de bout en bout côté client
  Autrement dit, il faut utiliser Syncthing plutôt que Dropbox, et Signal plutôt que Slack ou Discord
- La politique d’OpenAI qui consiste à « conserver les données seulement 30 jours à des fins d’audit » signifie aussi qu’en cas d’incident de sécurité pendant ces 30 jours, les données peuvent fuiter, et il est donc tout à fait raisonnable de s’en inquiéter
  D’autant plus qu’il y a déjà eu quelques problèmes de sécurité documentés par le passé
- La même logique pourrait aussi s’appliquer au traitement des données dans le cloud, mais étrangement personne ne se plaint que Dropbox stocke les données sur AWS ou Google Cloud
L’histoire du micro dans l’article de Mike ressemble à une diversion qui détourne l’attention du point essentiel, lequel pourrait être formulé plus clairement
Facebook récupère littéralement des données depuis les applications et Internet, suit votre comportement en ligne et injecte ces données dans des modèles vous concernant. Ces modèles sont si précis qu’ils peuvent parfois presque prédire ce que vous pensez. C’est pour cela que le grand public en conclut qu’ils écoutent via le micro
Les entreprises de grands modèles de langage comme OpenAI et leurs partenaires utilisent pratiquement exactement le même type de modèle. Elles aspirent des données depuis toutes sortes de sources, améliorent leurs modèles avec, puis les monétisent en augmentant les chances que vous continuiez à cliquer là où elles le veulent
- Oui. Dans un sens plus large, le grand public n’a pas forcément tort
  Techniquement, il se trompe sur le mécanisme, mais il a totalement raison sur l’intrusion extrême dans la vie privée. Le fait que cette intrusion prenne la forme d’un modèle très précis plutôt que d’un micro n’est qu’un détail technique, l’effet final est le même
- Et tout ça, au final, c’est pour me montrer des pubs nulles sur des jeux en ligne auxquels je ne jouerai jamais, des services de rencontre thématiques pour étudiants que je n’utiliserai pas, des accessoires de yoga ou des services de transfert d’argent
  J’habite près d’une grande université, donc j’imagine qu’ils l’infèrent via l’IP. Il y a parfois aussi des pubs pour Lexus ou Jaguar, et ça, ça me va
Je ne crois pas que Facebook écoute secrètement les gens via le micro de leur téléphone, mais l’argument selon lequel « si le mensonge était découvert, le risque réputationnel serait astronomique » n’est pas du tout convaincant
Parmi les non-techniciens américains que je connais, la réputation de Facebook est déjà désastreuse. Les gens ont vu que Facebook a contribué à attiser l’insurrection du 6 janvier 2021, puis n’a assumé aucune responsabilité ensuite et n’a rien corrigé
Même s’il était révélé qu’ils faisaient réellement quelque chose que beaucoup de gens pensent déjà qu’ils font probablement, le dommage réputationnel supplémentaire serait bien moindre que cela
- Eux aussi savent que leur réputation est désastreuse, mais les gens continuent quand même d’utiliser Insta et WhatsApp
Que ce soit OpenAI ou une autre grande entreprise, je ne leur fais pas « confiance » sur ce qu’elles ont fait, vont faire, ou disent être en train de faire
Cela dit, je ne crois pas qu’OpenAI utilise les données Dropbox pour entraîner ses modèles sans le consentement des utilisateurs
Mais le problème n’est pas là. Le problème, c’est les données en transit. Des données envoyées à un tiers qui peut effectivement les lire, à un endroit où il peut y avoir des employés malveillants échappant au contrôle de Dropbox, où elles peuvent être journalisées ou soumises à d’autres politiques
Si j’envoie des données privées à Dropbox, Dropbox ne devrait les envoyer à quiconque pour aucune raison, y compris « l’amélioration du produit », sans un consentement explicite et suffisamment éclairé. Je ne vois pas pourquoi ce serait sujet à débat
Si Dropbox héberge lui-même le modèle et fournit de la génération augmentée par récupération aux utilisateurs qui y ont consenti, c’est autre chose
Si Dropbox envoie les données de tous les utilisateurs à un tiers sans prévenir personne à l’avance, c’est complètement différent, et c’est terrible
- Pourquoi croire ça ? Ils se sont entraînés sur mon code sans mon consentement, alors pourquoi les données des utilisateurs seraient-elles différentes ?
  L’entraînement relève soit du fair use, soit non. Et les entreprises de la Silicon Valley en hypercroissance ne sont pas spécialement connues pour respecter l’esprit de la loi
- Dès l’instant où les données sont transmises à un tiers sans chiffrement, elles ne sont plus « privées », et leur politique dit en substance qu’ils peuvent utiliser à peu près n’importe quoi s’ils peuvent prétendre que c’est « dans l’intérêt légitime du fonctionnement du service et de l’activité », donc le débat est possible
  La politique dit même qu’elle peut être mise à jour à tout moment s’ils le souhaitent
  Une politique de confidentialité n’a même pas force obligatoire en droit. Si vous êtes aux États-Unis et que vous n’avez pas de contrat avec Dropbox, vous n’avez pratiquement aucun droit, et pour faire valoir les droits que vous pensez avoir il faut aller au tribunal, or les tribunaux sont en pratique un système où l’argent gagne, et en face se trouve une entreprise valant des milliards
  Si Dropbox trahit ouvertement la confiance que vous lui avez accordée, ce serait vraiment lamentable, et possiblement une décision commerciale désastreuse qui ferait que plus personne ne lui confierait jamais ses données. Mais s’ils devenaient un jour complètement malfaisants et se mettaient à vendre les données à quiconque paie, il n’y aurait probablement pas grand-chose que vous pourriez faire
  Les données auxquelles vous tenez ne devraient pas être mises dans le cloud sans sauvegarde locale ni chiffrement. Comme ça, quoi que fasse le fournisseur cloud, ou à qui il les transmette, vous n’aurez pas à vous en inquiéter
- Je suis client payant de Dropbox, mais je n’ai pas envie de payer pour ce genre de fonctionnalité
  J’aimerais plutôt qu’ils chiffrent mes données de façon à ne pas pouvoir proposer ce genre de fonction. Je veux pouvoir récupérer mes données, mais le simple fait qu’ils puissent fournir cette « fonctionnalité » IA donne l’impression qu’ils n’ont presque rien fait pour empêcher un employé malveillant ou un tiers d’accéder à mes données
- Si Dropbox a déjà signé un BAA avec des clients entreprises qui stockent des documents soumis à HIPAA, partager ces documents avec un tiers non divulgué créerait très vite un énorme problème
  Les sanctions financières sont très élevées, par incident exposé et par employé concerné, et la responsabilité peut aussi retomber sur l’employé ayant directement divulgué ou partagé les données
  Donc même s’ils ont partagé des documents avec un tiers non divulgué sans l’annoncer, je suis certain que ce n’est pas « tout ». Les données d’entreprise sont probablement en sécurité. Ce genre de contrat est examiné de très près avant signature
- Oui. Le point central, c’est simplement : qui peut voir mes données sensibles ?
Une crise de confiance dans l’IA ?
Ne l’est-ce pas encore plus après avoir vu ce qui semblait être le licenciement ou le remplacement d’un conseil d’administration et d’un CEO sur fond de soupçons de mensonge ou de manipulation, sans que personne ne sache clairement ce qui s’est réellement passé ?
Si Dropbox scanne les données des utilisateurs pour créer des données dérivées, alors ces données « dérivées » ne sont plus des « données utilisateur » mais des données Dropbox, et elles peuvent être partagées. Elles peuvent n’avoir qu’un caractère statistique et ne pas être directement liées à un utilisateur individuel, mais n’est-ce pas précisément ce que sont les données d’entraînement ? N’est-ce pas comme ça que ça fonctionne à l’origine ? Donc cela pourrait être partagé pour entraîner des modèles d’IA, non ?
Ce n’est pas un mensonge, c’est un jeu de langage. Non, c’est un comportement contraire à l’éthique, et c’est devenu la norme des grandes entreprises technologiques
- Pour être juste envers Sam Altman et OpenAI, les reportages crédibles que j’ai vus, notamment le travail de Kara Swisher, indiquent que l’enjeu n’était pas la sécurité de l’IA ni le fait que le CEO ait menti au conseil, mais plutôt un conflit plus large entre le CEO et le conseil sur la direction que devait prendre OpenAI
  Je n’ai aucun intérêt dans ce conflit. Je ne prends le parti ni d’Altman ni d’OpenAI. Et j’ai de sérieuses inquiétudes sur l’endroit où ce meilleur des mondes nous emmène. Même si la destination n’a rien d’attirant, je ne sais pas non plus s’il existe une option crédible pour descendre de ce manège
  Le comportement de Dropbox décrit ici n’est qu’un élément de plus dans une très longue série de ruptures de confiance par les entreprises technologiques
- L’accusation de comportement contraire à l’éthique est trop souvent réflexe, sans fondement et appuyée sur des suppositions
  Dans l’exemple cité par l’auteur, Dropbox n’envoie des données à OpenAI que lorsque l’utilisateur déclenche explicitement une fonctionnalité liée à l’IA, comme le résumé de documents. Pourtant, la réaction semble supposer sans preuve qu’ils scannent et téléversent massivement les documents des gens
  Il existe clairement des comportements contraires à l’éthique dans les entreprises d’IA. Personnellement, je me garde de juger si leur proportion est plus élevée ou plus faible que le taux de base de comportements non éthiques dans la population générale. Quoi qu’il en soit, si l’on veut parler de mauvais comportements, il faut des exemples concrets avec des preuves citables, pas de la peur agitéе
Les personnes qui ne font pas confiance aux entreprises d’IA ont probablement des sentiments similaires envers de nombreuses entreprises d’autres secteurs, des organisations à but non lucratif, et même des institutions publiques
Selon à qui l’on demande, il semble y avoir un problème de confiance bien plus large qui dépasse largement le périmètre des entreprises fondées sur l’IA. Demander à ce seul secteur de se battre contre la défiance dirigée contre lui ressemble donc à une mission impossible qui dépasse ces entreprises, puisqu’il s’agit d’affronter une défiance venant de toutes parts
Je ne sais pas quelle est la réponse à ce problème, ni même s’il s’agit réellement d’un problème, ni vers quoi nous allons si ce cynisme généralisé finit par se propager à tout et à tout le monde. Peut-être sommes-nous simplement condamnés à vivre une époque intéressante
- La première étape pour regagner la confiance, c’est d’arrêter les abus de confiance
  Toute notre industrie abuse de la confiance à un niveau difficile à croire, et rien n’indique que cela va changer prochainement

Crise de confiance envers l’intelligence artificielle

L’essentiel de la controverse autour des fonctionnalités d’IA de Dropbox

La confusion créée par le consentement et les libellés de paramètres

Les utilisateurs qui ne font pas confiance à OpenAI

Comparaison avec la théorie du complot du micro de Facebook

Dans l’IA, l’effet boîte noire nourrit la défiance

Pourquoi la crise de confiance est importante

Ce qu’OpenAI et les laboratoires d’IA peuvent faire

L’opportunité des modèles locaux

Les conditions du débat sur l’IA et la confidentialité

À lire aussi

1 commentaires

Avis sur Hacker News