Problème de mémoire
Un hacker implante de faux souvenirs dans ChatGPT pour siphonner durablement les données des utilisateurs
- Le chercheur en sécurité Johann Rehberger a signalé une vulnérabilité permettant d’enregistrer de fausses informations et des instructions malveillantes dans les paramètres de mémoire à long terme de ChatGPT
- OpenAI considère cela comme un problème de sûreté, et non techniquement comme un problème de sécurité
- Rehberger a créé une preuve de concept exploitant cette faille pour exfiltrer de façon persistante toutes les saisies d’un utilisateur
- OpenAI a annoncé des correctifs partiels
Sur la piste des souvenirs
- OpenAI a commencé à tester en février cette année la fonctionnalité de mémoire de conversation à long terme de ChatGPT, avant de l’élargir en septembre
- Cette fonctionnalité conserve des informations de conversations précédentes et les utilise comme contexte dans les conversations futures
- En l’espace de trois mois, Rehberger a découvert un moyen d’enregistrer durablement de faux souvenirs via des contenus non fiables comme des e-mails, des billets de blog et des documents
- Par exemple, il pouvait amener ChatGPT à croire que l’utilisateur avait 102 ans, vivait dans la Matrice et pensait que la Terre est plate
Implantation de mémoire malveillante
- Rehberger a signalé en privé cette découverte à OpenAI en mai, mais OpenAI a clos le rapport
- Un mois plus tard, Rehberger a soumis une nouvelle déclaration publique, incluant une preuve de concept dans laquelle le fait d’ordonner de consulter un lien web hébergeant une image malveillante entraînait l’envoi de toutes les saisies utilisateur et des sorties de ChatGPT vers le serveur de l’attaquant
- OpenAI a introduit des correctifs pour empêcher que la mémoire soit exploitée comme vecteur d’exfiltration, mais des contenus non fiables peuvent toujours stocker des informations à long terme
- Les utilisateurs de LLM doivent surveiller attentivement les sorties indiquant qu’une nouvelle mémoire a été ajoutée pendant une session, et vérifier régulièrement les mémoires enregistrées
En résumé pour GN⁺
- Cet article traite d’une vulnérabilité permettant d’abuser de la fonction de mémoire à long terme de ChatGPT
- De faux souvenirs peuvent être implantés via des contenus non fiables, ce qui peut permettre une exfiltration persistante des données de l’utilisateur
- OpenAI a introduit certains correctifs, mais la prudence reste nécessaire
- L’article alerte sur les enjeux de sécurité de l’IA et souligne les précautions que les utilisateurs doivent prendre pour protéger leurs données
1 commentaires
Avis sur Hacker News
Avis souhaitant que les produits basés sur des LLM perdent la confiance du public
La technologie évolue, mais les failles de sécurité existent toujours
Avis selon lequel, si l’on utilise de la Gen AI, elle doit être exécutée en local
Présentation d’un scénario dans lequel un site malveillant crée un piège à miel pour l’IA afin d’exfiltrer les données des utilisateurs
Exemple d’un système qui fait en réalité autre chose tout en indiquant à l’utilisateur qu’une autre action est en cours
Avis selon lequel l’observabilité est importante
Quelqu’un se demande s’il est possible d’entraîner un modèle simple capable de détecter et de signaler les tentatives d’injection suspectes
Inquiétude à l’idée de voir apparaître des robots IA qui se croient humains
Avis indiquant ne pas avoir compris comment implanter les informations de quelqu’un d’autre
En mentionnant des images malveillantes, avis selon lequel cela ressemble à une application de Snow Crash aux LLM