3 points par GN⁺ 2024-09-26 | 1 commentaires | Partager sur WhatsApp

Problème de mémoire

Un hacker implante de faux souvenirs dans ChatGPT pour siphonner durablement les données des utilisateurs
  • Le chercheur en sécurité Johann Rehberger a signalé une vulnérabilité permettant d’enregistrer de fausses informations et des instructions malveillantes dans les paramètres de mémoire à long terme de ChatGPT
  • OpenAI considère cela comme un problème de sûreté, et non techniquement comme un problème de sécurité
  • Rehberger a créé une preuve de concept exploitant cette faille pour exfiltrer de façon persistante toutes les saisies d’un utilisateur
  • OpenAI a annoncé des correctifs partiels

Sur la piste des souvenirs

  • OpenAI a commencé à tester en février cette année la fonctionnalité de mémoire de conversation à long terme de ChatGPT, avant de l’élargir en septembre
  • Cette fonctionnalité conserve des informations de conversations précédentes et les utilise comme contexte dans les conversations futures
  • En l’espace de trois mois, Rehberger a découvert un moyen d’enregistrer durablement de faux souvenirs via des contenus non fiables comme des e-mails, des billets de blog et des documents
  • Par exemple, il pouvait amener ChatGPT à croire que l’utilisateur avait 102 ans, vivait dans la Matrice et pensait que la Terre est plate

Implantation de mémoire malveillante

  • Rehberger a signalé en privé cette découverte à OpenAI en mai, mais OpenAI a clos le rapport
  • Un mois plus tard, Rehberger a soumis une nouvelle déclaration publique, incluant une preuve de concept dans laquelle le fait d’ordonner de consulter un lien web hébergeant une image malveillante entraînait l’envoi de toutes les saisies utilisateur et des sorties de ChatGPT vers le serveur de l’attaquant
  • OpenAI a introduit des correctifs pour empêcher que la mémoire soit exploitée comme vecteur d’exfiltration, mais des contenus non fiables peuvent toujours stocker des informations à long terme
  • Les utilisateurs de LLM doivent surveiller attentivement les sorties indiquant qu’une nouvelle mémoire a été ajoutée pendant une session, et vérifier régulièrement les mémoires enregistrées

En résumé pour GN⁺

  • Cet article traite d’une vulnérabilité permettant d’abuser de la fonction de mémoire à long terme de ChatGPT
  • De faux souvenirs peuvent être implantés via des contenus non fiables, ce qui peut permettre une exfiltration persistante des données de l’utilisateur
  • OpenAI a introduit certains correctifs, mais la prudence reste nécessaire
  • L’article alerte sur les enjeux de sécurité de l’IA et souligne les précautions que les utilisateurs doivent prendre pour protéger leurs données

1 commentaires

 
GN⁺ 2024-09-26
Avis sur Hacker News
  • Avis souhaitant que les produits basés sur des LLM perdent la confiance du public

    • Inquiétude face à une situation où un attaquant peut abuser d’un LLM en publiant un texte spécifique sur Internet
    • Cela souligne des problèmes tels que les fuites de données, la diffamation et la fourniture de fausses informations
  • La technologie évolue, mais les failles de sécurité existent toujours

  • Avis selon lequel, si l’on utilise de la Gen AI, elle doit être exécutée en local

  • Présentation d’un scénario dans lequel un site malveillant crée un piège à miel pour l’IA afin d’exfiltrer les données des utilisateurs

    • Exemple : lorsqu’un utilisateur demande une information, l’IA visite le site-piège et exfiltre les données
  • Exemple d’un système qui fait en réalité autre chose tout en indiquant à l’utilisateur qu’une autre action est en cours

  • Avis selon lequel l’observabilité est importante

    • C’est important, qu’il y ait ou non un LLM ou une installation WordPress
    • Le prompt lui-même doit aussi être considéré comme une entrée non fiable et être nettoyé
  • Quelqu’un se demande s’il est possible d’entraîner un modèle simple capable de détecter et de signaler les tentatives d’injection suspectes

  • Inquiétude à l’idée de voir apparaître des robots IA qui se croient humains

  • Avis indiquant ne pas avoir compris comment implanter les informations de quelqu’un d’autre

  • En mentionnant des images malveillantes, avis selon lequel cela ressemble à une application de Snow Crash aux LLM