2 points par GN⁺ 2025-06-05 | 1 commentaires | Partager sur WhatsApp
  • En vertu d’une ordonnance judiciaire, OpenAI doit conserver tous les logs des utilisateurs de ChatGPT, y compris les conversations supprimées, et l’entreprise affirme qu’il s’agit d’une grave atteinte à la vie privée
  • OpenAI soutient que cette décision a été prise immédiatement sans fondement suffisant, à la suite des demandes de groupes de presse réclamant la préservation de preuves dans le cadre d’un procès pour violation du droit d’auteur
  • OpenAI avertit que cette ordonnance l’obligerait à conserver les données personnelles de centaines de millions d’utilisateurs ainsi que des données confidentielles d’entreprises, avec un risque de violation des réglementations mondiales sur la vie privée et une lourde charge d’ingénierie
  • Depuis l’entrée en vigueur de l’ordonnance, même les conversations supprimées et les discussions temporaires sont forcément conservées de manière permanente, ce qui alimente une forte anxiété et de vives inquiétudes sur les réseaux sociaux
  • OpenAI demande de nouveau le retrait de l’ordonnance afin de préserver le contrôle des utilisateurs sur leurs données et la protection de la vie privée, et affirme qu’il continuera le combat judiciaire

La colère d’OpenAI face à une injonction de conservation de données « profondément personnelles »

Contexte de l’ordonnance judiciaire et principaux enjeux

  • OpenAI proteste devant le tribunal pour protéger la vie privée de millions d’utilisateurs de ChatGPT et s’oppose fermement à l’ordre de conserver tous les logs utilisateurs, y compris les conversations supprimées et celles liées à l’API
  • Cette ordonnance a été rendue dans le cadre d’un litige pour atteinte au droit d’auteur, après que les groupes de presse ont affirmé qu’OpenAI détruisait des preuves ; OpenAI rétorque que la décision a été prise dans la précipitation, sans vérification suffisante des faits ni démonstration adéquate
  • Les plaignants ont soutenu que, lorsqu’un utilisateur contourne l’accès payant à des articles de presse via ChatGPT, il supprimerait ensuite la conversation pour effacer les traces, mais aucune preuve n’a été présentée à l’appui de cette affirmation
  • Sur la base de cette supposition, le tribunal a ordonné à OpenAI de conserver séparément tous les logs de conversation à l’avenir, y compris ceux supprimés ; OpenAI avertit que cette mesure porte atteinte au contrôle des utilisateurs sur leurs données et accroît le risque de violation des lois mondiales sur la vie privée

Arguments d’OpenAI et réponse judiciaire

  • OpenAI souligne que cette ordonnance de conservation, exceptionnellement large, porte atteinte aux droits des utilisateurs à la vie privée, et que ceux-ci devraient pouvoir choisir eux-mêmes quand et comment leurs données sont conservées
  • Jusqu’à l’émission de cette ordonnance, lorsqu’un utilisateur supprimait lui-même une conversation ou utilisait la fonction de discussion temporaire, celle-ci était entièrement supprimée du système sous 30 jours
  • Mais avec cette décision, OpenAI doit désormais conserver de force même toutes les demandes de suppression et les discussions temporaires, ce qui entraîne une conservation de longue durée des données personnelles de centaines de millions d’utilisateurs ainsi que des données d’entreprise transitant par l’API, y compris des informations confidentielles
  • OpenAI souligne qu’au-delà des préoccupations liées à la vie privée, l’exécution de l’ordonnance nécessitera d’importantes ressources d’ingénierie et des coûts considérables, et affirme que le préjudice pour OpenAI et ses utilisateurs est bien supérieur au bénéfice hypothétique avancé par les groupes de presse
  • OpenAI a demandé une audience orale au tribunal et exige le retrait de l’ordonnance (son annulation immédiate)

Réactions des utilisateurs et du secteur

  • Une fois l’existence de l’ordonnance révélée, de nombreux utilisateurs et clients entreprises ont exprimé leur inquiétude sur les réseaux sociaux (LinkedIn, X, etc.)
  • Certains experts estiment que cette ordonnance pourrait constituer une grave violation contractuelle à l’égard de tous les clients entreprises d’OpenAI, et avertissent que les sociétés manipulant des données confidentielles via l’API seraient exposées à un risque de sécurité encore plus élevé
  • Sur les réseaux sociaux, les avis se multiplient : « tous les services d’IA basés sur OpenAI sont désormais exposés à des menaces pour la vie privée », ou encore des recommandations de migrer vers des services alternatifs comme Mistral AI ou Google Gemini
  • Un expert en sécurité a qualifié une telle décision de risque de sécurité inacceptable
  • Des critiques ont également émergé, comme : « Le juge Wang pense manifestement que l’argument de copyright du NYT prime sur la vie privée de tous les utilisateurs d’OpenAI — c’est insensé »

Politique d’OpenAI et perspectives à venir

  • OpenAI respectait jusqu’ici strictement sa politique de conservation des données utilisateurs et supprimait l’intégralité de l’historique des conversations dans les 30 jours suivant la suppression d’un compte
  • Avec l’ordonnance du tribunal, les processus existants de gestion et de suppression des données ont été neutralisés d’un seul coup, et les utilisateurs ont désormais du mal à conserver la confiance que leurs données seront effectivement supprimées en toute sécurité
  • OpenAI entend poursuivre son combat judiciaire et prévoit de faire activement connaître le caractère injustifié de cette ordonnance ainsi que les dommages réels qu’elle pourrait causer

1 commentaires

 
GN⁺ 2025-06-05
Réactions sur Hacker News
  • Certains soulignent que le même risque existe aussi lorsqu’on utilise les modèles GPT via l’API

    OpenAI indique que ce risque s’étend aux utilisateurs de ChatGPT Free, Plus et Pro, ainsi qu’aux utilisateurs de l’API
    Je pense que cette situation est très défavorable au business d’OpenAI

    • À mon avis, c’est un problème que toutes les entreprises d’IA vont bientôt rencontrer
      À moins que tout le monde ne passe à un environnement où les modèles sont hébergés directement en interne, dans un modèle économique de type SaaS, la protection de la vie privée des utilisateurs n’a en réalité pas beaucoup d’importance face aux considérations de rentabilité
      Honnêtement, la plupart des gens se sont déjà habitués au fait qu’il n’existe plus vraiment de vie privée sur Internet
      En revanche, les entreprises ou les personnes qui confient, sur la base de la confiance, du code source fermé ou des données liées à la sécurité risquent forcément d’être très touchées
      Mais à mon sens, ce sont justement des éléments qu’il ne faudrait jamais externaliser à aucun prestataire

    • Les entreprises déjà bien établies doivent, à cause de cette affaire, réexaminer leurs contrats existants, leurs règles internes et leur tolérance au risque
      Les startups wrapper construites autour de services basés sur ChatGPT doivent elles aussi revoir leurs politiques de confidentialité et préciser clairement que les utilisateurs renoncent à leur vie privée

    • Toutes les intégrations GPT que j’ai mises en place passaient par les services Azure, précisément à cause de l’obligation contractuelle de ne pas entraîner le modèle sur mes données
      Si j’ai bien compris, cette décision ne s’applique pas aux services Azure, donc à Microsoft

    • Si tu manipulais du code propriétaire, alors tu n’aurais de toute façon jamais dû utiliser un LLM dans le cloud, et cette affaire ne fait que rendre cela encore plus évident

    • À ceux qui demandent en quoi cela nuit au business, il est rappelé qu’il s’agit d’une mesure de conservation des données pour se couvrir juridiquement, et non d’une utilisation à des fins d’entraînement
      Je pense aussi qu’il est possible d’inscrire contractuellement, dans les accords passés avec d’autres entreprises, que les données ne seront pas utilisées pour l’entraînement

  • Un article de fond plus détaillé est disponible ici

    • Ce lien est la véritable source d’information
      Ce serait mieux de mettre à jour le lien vers cet article

    • Les commentaires sous l’article sont vraiment assez drôles
      On y sent une tonalité satirique qui présente les défenseurs du droit d’auteur comme le camp anti-IA
      Personnellement, je n’aime pas vraiment l’attitude arrogante d’OpenAI vis-à-vis des contenus des autres, mais d’un autre côté, j’ai aussi du mal à adhérer aux exigences excessives des ayants droit
      Je pense que l’IA générative et les questions d’entraînement mettent en lumière de façon éclatante le caractère dépassé de certains aspects du droit actuel de la propriété intellectuelle
      Il faudra faire évoluer les choses, mais pas d’une manière qui n’avantage que les grandes entreprises ou les plus riches ; cela devrait aussi bénéficier aux gens ordinaires

    • Je suis globalement critique à l’égard des atteintes au droit d’auteur par les LLM, mais la logique de cette décision me paraît ici un peu étrange
      Il est reproché au juge de raisonner sur un cas hypothétique où un utilisateur contournerait un paywall via ChatGPT pour extraire du contenu du New York Times, puis demanderait ensuite la suppression de tous les enregistrements le concernant après avoir appris l’existence de l’affaire, ce qui reviendrait à vider la décision de sa substance
      En réalité, quand on apprend qu’un tel jugement a été rendu, on se demande si les utilisateurs ne vont pas simplement devenir plus prudents pendant cette période

    • Maintenant qu’OpenAI doit conserver des logs même lorsque les utilisateurs suppriment leur historique ou utilisent la fonction Temporary Chat, à cause d’une injonction judiciaire, en quoi cela diffère-t-il d’un historique de navigateur web ordinaire ?
      Pourquoi OpenAI serait-il le seul à devoir être soumis à une telle contrainte spéciale, alors qu’on n’exige pas par exemple de Safari qu’il conserve systématiquement l’historique supprimé par l’utilisateur ?

  • Un meilleur lien d’article est partagé dans le fil
    Il s’agit de l’article original d’Ars Technica
    Il est ajouté qu’il vaut mieux se référer à un véritable article contenant des informations, plutôt qu’à un simple post Mastodon

  • Ces derniers temps, plusieurs tribunes personnelles sur les avantages ou les inconvénients des LLM remontent sur Hacker News, mais elles ont tendance à ne jamais mentionner la question de la vie privée
    La principale raison pour laquelle je n’utilise pas de LLM, ou ne colle pas de code source dans une fenêtre de prompt, c’est précisément la confidentialité
    Dans notre entreprise, à cause d’un NDA et de réglementations gouvernementales comme l’ITAR, si le code sort de nos serveurs, c’est immédiatement une violation des règles
    Cette affaire montre que la confidentialité est le talon d’Achille des LLM
    Tant que les LLM ne seront pas installés on-premise, ils ne pourront pas échapper à ce problème

    • Il existe aussi la possibilité d’héberger soi-même un LLM sur ses propres serveurs ; pour ce type de préoccupation, une approche entièrement auto-hébergée est la bonne réponse
      On peut mettre en place son propre LLM très facilement et très simplement
  • Le fait qu’OpenAI soit contraint de conserver les données sur ses serveurs conduit à une situation où les équipes juridiques des entreprises impliquées dans le procès peuvent consulter les conversations entre les utilisateurs et ChatGPT dans le cadre de la procédure de Discovery
    Par exemple, les avocats du NYT pourraient lire devant le tribunal des conversations privées d’un utilisateur comme pièces du dossier

    • Une solution pourrait être de conserver les journaux de conversation sous une forme anonymisée
      OpenAI pourrait techniquement mettre en place cette anonymisation, et cela semble être la meilleure issue possible

    • Ces données pourraient être sauvegardées dans des solutions d’archivage profond basées sur du stockage sur bande, comme la bibliothèque Spectra TFinity ExaScale, ou encore AWS Glacier
      Avec une telle architecture, où la restauration des données prend plusieurs heures voire plusieurs jours, il serait possible de respecter l’injonction judiciaire tout en maintenant des coûts faibles
      Et même en cas de fuite massive, le vol des données exigerait tellement de temps et d’efforts que cela favoriserait la détection et la défense

    • Il faut désormais partir du principe que tous les chats et appels API échangés avec une IA cloud hébergée aux États-Unis peuvent faire l’objet de recherches juridiques
      Si c’est un risque que vous ne pouvez pas assumer, il faut sérieusement envisager de passer à un LLM local

  • On se demande comment un média comme le Times peut obtenir le droit d’accéder aux données des utilisateurs
    En fin de compte, ce type de décision aboutit à une situation où un journal peut examiner les données des utilisateurs

  • Cette injonction judiciaire semble pouvoir entraîner, dans plus d’une juridiction, des violations potentielles des lois sur la vie privée, et pourrait aussi conduire OpenAI à enfreindre des contrats déjà signés avec ses clients

    • Il est expliqué que les contrats existants n’ont aucun effet sur une décision de justice
      L’injonction judiciaire prime sur tout le reste

    • Cette ordonnance ne crée pas en elle-même de nouvelle violation des lois sur la vie privée
      La violation existait déjà du simple fait de conserver les données et de les fournir à des tiers

    • En réalité, cette injonction s’applique rétroactivement au 13 mai
      On a l’impression qu’OpenAI n’a pas informé ses utilisateurs jusqu’ici, par exemple par e-mail, en raison de l’impact négatif que cela aurait eu sur ses activités
      Mais cela donne clairement le sentiment d’une trahison de la confiance des utilisateurs

  • Les entreprises qui échangeaient des données sensibles via l’API de ChatGPT ont probablement cru aux explications selon lesquelles les données d’entrée et de sortie n’étaient pas conservées
    En pratique, OpenAI peut donc garder ces données s’il lui suffit de modifier un paramètre
    Je me demande si une notification spécifique a été envoyée, ou si tout le monde l’a découvert uniquement par la couverture médiatique

  • Le lien du post original ne répondait plus à cause d’une surcharge de trafic (HN hug of death), mais quelqu’un a réussi à le lire via la Wayback Machine
    Comme il s’agissait d’une instance Mastodon personnelle, il est compréhensible qu’un afflux soudain de visiteurs l’ait surchargée