1 points par GN⁺ 2025-11-13 | 1 commentaires | Partager sur WhatsApp
  • OpenAI fait de la protection des données de conversations personnelles de ChatGPT, utilisé par plus de 800 millions de personnes, sa priorité absolue
  • The New York Times a demandé au tribunal la remise de 20 millions d’historiques de conversations privées sur ChatGPT, une démarche dénoncée comme une atteinte à la vie privée des utilisateurs
  • OpenAI a déjà refusé par le passé une demande portant sur 1,4 milliard d’historiques de conversations et poursuit cette fois encore, par voie judiciaire, ses efforts pour protéger les données des utilisateurs
  • L’entreprise développe des fonctionnalités de sécurité renforcées comme le chiffrement côté client et met en place des systèmes automatisés minimisant l’accès aux données sensibles
  • Cette affaire est considérée comme un tournant majeur autour des standards de protection des données personnelles à l’ère de l’IA

La demande de données du New York Times et la position d’OpenAI

  • Dans le cadre de son procès contre OpenAI, le New York Times demande la remise de 20 millions de conversations d’utilisateurs de ChatGPT
    • Il affirme vouloir vérifier si des utilisateurs ont utilisé ChatGPT pour contourner le paywall du New York Times
  • OpenAI indique que cette demande viole ses principes de protection de la vie privée et ses pratiques de sécurité établis de longue date
  • L’entreprise a demandé au tribunal de rejeter cette requête, en faisant valoir qu’elle inclut les conversations privées de dizaines de millions de personnes sans lien avec le litige

Antécédents de demandes similaires et réponse apportée

  • Le New York Times avait déjà tenté par le passé de limiter la fonctionnalité de suppression des conversations des utilisateurs, mais OpenAI s’y est opposé et a rétabli le droit à la suppression
  • Une demande de remise de 1,4 milliard d’historiques de conversations a ensuite été formulée, mais OpenAI l’a refusée
  • OpenAI affirme que les conversations privées des utilisateurs leur appartiennent et qu’elles ne doivent pas devenir les victimes collatérales d’un litige sur l’accès à des contenus en ligne

Renforcement de la sécurité et de la protection de la vie privée chez OpenAI

  • OpenAI, l’une des organisations les plus attaquées au monde, investit massivement pour protéger les données contre le crime organisé et les tentatives de piratage soutenues par des États
  • Sa feuille de route inclut à l’avenir le chiffrement côté client (client-side encryption), avec l’objectif que même OpenAI ne puisse plus accéder aux messages des utilisateurs
  • L’entreprise conçoit également un système automatisé de détection de sûreté afin que seuls les cas graves d’usage abusif — menaces contre la vie, préjudices causés à autrui, risques de cybersécurité — soient transmis de manière limitée à une équipe humaine de revue

Détails relatifs à la demande de données (résumé FAQ)

  • Périmètre des données demandées : 20 millions de conversations ChatGPT grand public tirées aléatoirement entre décembre 2022 et novembre 2024
  • Services exclus : ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (anciennement Team) et les clients API ne sont pas concernés
  • Mesures de protection des données personnelles : toutes les conversations passent par une procédure de suppression des informations personnellement identifiables (PII) et des informations sensibles comme les mots de passe
  • Droits d’accès aux données : seuls certains membres des équipes juridique et sécurité d’OpenAI, ainsi que les avocats externes et conseillers techniques du New York Times, peuvent y accéder
  • Mode de conservation : stockage isolé dans un système sécurisé distinct afin de satisfaire aux obligations légales, sans accès général

Considérations juridiques et internationales

  • OpenAI précise qu’il prend les mesures nécessaires pour respecter les réglementations internationales sur la vie privée, dont le RGPD, mais que la demande du New York Times n’est pas conforme à ses propres standards de confidentialité
  • L’entreprise continue de contester cette demande par la voie judiciaire et affirme qu’à chaque étape, la protection de la vie privée des utilisateurs restera sa priorité absolue
  • OpenAI promet de fournir à l’avenir des mises à jour transparentes sur les décisions du tribunal et sur l’évolution du traitement des données

Plans et vision pour la suite

  • OpenAI souligne que plus l’IA s’intègre profondément dans la vie des individus, plus le niveau de sécurité et de protection de la vie privée doit être renforcé
  • L’objectif est un futur où les conversations IA les plus personnelles des utilisateurs restent sûres et privées
  • À court terme, l’entreprise prévoit de publier rapidement des mesures de renforcement de la sécurité et d’atténuation immédiates
  • À long terme, elle poursuit la mise en place de cadres de protection techniques et juridiques pour bâtir un environnement d’IA digne de confiance

1 commentaires

 
GN⁺ 2025-11-13
Avis sur Hacker News
  • J’ai appris que le New York Times avait demandé à OpenAI de fournir 20 millions de conversations ChatGPT
    C’est une demande qu’un plaignant peut naturellement formuler, mais ce type de procès ne se limite pas forcément aux questions de copyright
    Le vrai problème serait plutôt de savoir pourquoi OpenAI collecte et conserve autant de données de conversations privées
    La demande du NYT n’est utilisée que dans le cadre de la procédure judiciaire, les informations confidentielles étant masquées, puis les données sont détruites une fois le procès terminé
    À l’inverse, OpenAI conserve les données indéfiniment à des fins commerciales
    Et il n’est même pas clair pour quel modèle économique ces données sont accumulées. Cela ressemble à une collecte de données sans discernement
    • En réalité, ce que le tribunal a ordonné, ce n’est pas de « collecter » des données, mais de préserver (preserve) des données déjà stockées
      Documents associés : ordonnance du tribunal 1, ordonnance du tribunal 2
    • Mais une autre personne affirme qu’il s’agit bien en pratique d’une ordonnance judiciaire forçant la collecte de données
      Voir l’article d’Ars Technica
    • La raison pour laquelle OpenAI enregistre les conversations est claire : l’interface ChatGPT propose une fonction d’historique des conversations
      Le problème est que même si l’utilisateur clique sur le bouton de suppression, les données doivent être conservées à cause de l’ordonnance judiciaire
    • De la même façon que Google Photos stocke les photos, ChatGPT doit stocker l’historique des conversations. C’est une fonctionnalité centrale du produit
    • Si vous avez déjà utilisé ChatGPT, vous savez qu’un historique des conversations apparaît dans le panneau de gauche
  • Si OpenAI n’avait pas utilisé les données du NYT sans autorisation, cela ne serait pas arrivé
    Au final, je pense que la cause profonde est la violation du copyright. Le NYT a raison de se battre
    • Mais une autre personne rétorque que deux juges ont déjà estimé que l’entraînement de l’IA relevait du fair use
      Résumé des décisions concernées
    • Certains estiment aussi que les données devraient être considérées comme un bien public. Le problème viendrait du fait que des entreprises particulières revendiquent leur propriété sur les données
    • Le NYT est critiqué comme un acteur qui pollue Internet avec un paywall fermé
      Ne pas contribuer à la culture ouverte tout en cherchant l’attention serait hypocrite
    • Sam Altman et la direction d’OpenAI sont critiqués pour avoir diffusé de la peur, de l’incertitude et du doute (FUD) uniquement afin d’attirer des investissements
      Les promesses autour de l’AGI auraient été mensongères et n’auraient servi qu’à angoisser les gens
  • Je ne considère pas OpenAI comme les « gentils »
    Mais l’idée que des conversations privées entre personnes finissent entre les mains des avocats du NYT me met mal à l’aise
    Comme le NYT n’a pas démontré clairement son préjudice, cela ressemble à une fishing expedition
    • Pourtant, une autre personne explique que le NYT a bien présenté des preuves de détournement de contenu et que, pour le vérifier, l’ensemble des logs est nécessaire
      L’analogie donnée est celle d’exiger les registres de vente d’une librairie de livres piratés
      Les utilisateurs auraient du mal à faire valoir juridiquement un droit à la vie privée
    • Une autre personne explique aussi que le NYT réclame des dommages-intérêts légaux (statutorily defined damages), donc qu’il n’est pas nécessaire de prouver un préjudice réel
      La vraie question est de savoir si l’entraînement de l’IA constitue une violation du copyright, et s’il relève ou non du fair use
      Il est également reproché à OpenAI d’avoir répondu de manière peu coopérative pendant la procédure
    • L’affirmation selon laquelle « le NYT n’a pas démontré son préjudice » est contestée comme fausse, avec l’invitation à lire la plainte (complaint) elle-même
      PDF de la plainte du NYT
    • Certains pensent que ce conflit finira par profiter à la Chine et aux modèles open source
      Ceux qui peuvent ignorer le copyright finiront par bénéficier d’un avantage concurrentiel
    • En réalité, la plupart des conditions d’utilisation précisent déjà que les logs peuvent être fournis sur ordonnance du tribunal
      C’est simplement que presque personne ne les lit
  • On dirait qu’en ce moment il est à la mode pour les entreprises de publier des lettres ouvertes à destination du public afin de mener la bataille de l’opinion
    ESPN vs YouTube, et maintenant OpenAI vs NYT
    Je n’ai pas spécialement envie de soutenir l’un ou l’autre. Cela dit, si OpenAI ne reproduit vraiment pas textuellement les phrases du NYT, elle ne devrait pas avoir peur d’une vérification
    Proposition d’une vérification par un tiers neutre — un tiers comparerait les articles du NYT et les logs de ChatGPT, sans que les deux parties aient directement accès aux originaux
    • Mais en pratique, il est impossible de trouver une institution parfaitement neutre
      Au final, chaque camp ne peut que présenter ses experts et mener devant le tribunal une bataille de crédibilité
    • Une autre personne réagit avec cynisme en disant que les deux organisations sont dirigées sous un leadership autoritaire, donc qu’on n’a qu’à les laisser se battre
  • OpenAI est peut-être partie d’une organisation à but non lucratif, mais elle mène aujourd’hui une véritable campagne de spin totalement dévoyée
  • Comme quand Google parle de vie privée, les déclarations d’OpenAI ne paraissent pas sincères du tout
    J’espère quand même que cette affaire fera prendre conscience aux gens des risques du surpartage de données personnelles
    • Le slogan « vos données vous appartiennent » ressemble à de la propagande
      En réalité, selon les conditions d’utilisation, OpenAI possède et exploite ces données
      Une communication qui déforme aussi les intentions du NYT n’inspire pas confiance
    • Cette situation est la conséquence directe du fait qu’OpenAI a aspiré sans distinction des données du monde entier
      C’est un problème qu’elle a elle-même créé
    • Ironiquement, Google a déjà reconnu par le passé des problèmes liés à l’historique de localisation (Local Timeline) et est passé à un stockage local
      OpenAI ne montre aucun sens des responsabilités comparable
    • Certains vont jusqu’à dire qu’il serait préférable pour le monde qu’OpenAI fasse tout simplement faillite
  • Je ne comprends pas pourquoi OpenAI affirme devant le tribunal que « les données utilisateurs ne l’intéressent pas »
    Dans ce cas, pourquoi brandir maintenant la vie privée comme un bouclier ?
  • À partir du moment où l’on dit que « ce procès est sans fondement », la crédibilité en prend un coup
    Ce genre d’affirmation est souvent le signe d’une attitude défensive
  • Ironiquement, OpenAI est dès le départ une entreprise qui a aspiré des données personnelles pour entraîner ses modèles
    S’inquiéter maintenant de la vie privée est contradictoire
  • Je me demande pourquoi OpenAI n’applique pas de chiffrement (encryption) lorsqu’elle stocke les conversations
    Techniquement, cela semble possible, mais l’entreprise a sans doute choisi de les conserver en clair pour des analyses internes
    Si les employés peuvent y accéder, c’est encore plus gênant que si les avocats du NYT les consultent
    Cela ne me paraît pas très différent d’un enquêteur qui ouvrirait un courrier sur ordonnance judiciaire
    • Mais en réalité, à chaque requête, le système ne réinjecte probablement pas toute la conversation dans le modèle ; il utiliserait plutôt un système de cache K-V pour assurer efficacement la continuité
    • Et même avec du chiffrement, si OpenAI détient la clé, cela ne permettrait pas d’échapper à une ordonnance du tribunal