Qu’est-ce que la prompt injection ?

xguru · 2023-05-17T11:05:01+09:00

Simon Willison a publié une vidéo, des slides et la transcription Prompt Injection = « une attaque contre une application construite sur un modèle d’IA », « pas une attaque contre le modèle d’IA lui-même » Démonstrations d’un exemple d’injection de traduction et d’une page attaquant Bing exécuté dans la barre latérale d’Edge Et si mon assistant IA obéissait aux ordres de quelqu’un d’autre ? (par exemple, une invite lui demandant de transférer un e-mail de réinitialisation de mot de passe quelque part) Il existe des solutions comme le prompt begging, mais elles fonctionnent mal Ma proposition… ce n’est pas idéal, mais le pattern Dual Language Model pourrait atténuer partiellement le problème Construire l’assistant IA avec deux LLM différents : un Privileged LLM et un Quarantined LLM Privileged LLM Peut accéder aux outils Ne traite que des entrées fiables Donne des instructions au Quarantined LLM, mais ne voit ni ses entrées ni ses sorties Ne manipule que des tokens : Summarize text $VAR1 Display $SUMMARY2 to the User Quarantined LLM Exécute des tâches sur des entrées non fiables (comme le résumé) N’a accès à rien d’autre Toutes les entrées et sorties sont considérées comme contaminées — rien n’est transmis directement au Privileged LLM La prompt injection est une vulnérabilité de sécurité très grave : tant qu’on ne la comprend pas, il est impossible d’implémenter des contre-mesures Toutes les applications construites sur des modèles de langage sont fondamentalement vulnérables à ce problème Comme il n’existe pas encore de solution à la prompt injection, il faut parfois savoir dire « non » si cela empêche de développer une application de manière sûre En tant que développeur, je déteste vraiment être la personne qui dit « ce n’est pas possible », mais dans ce cas, je pense que c’est vraiment important

(simonwillison.net)

21 points par xguru 2023-05-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Simon Willison a publié une vidéo, des slides et la transcription
Prompt Injection = « une attaque contre une application construite sur un modèle d’IA », « pas une attaque contre le modèle d’IA lui-même »
Démonstrations d’un exemple d’injection de traduction et d’une page attaquant Bing exécuté dans la barre latérale d’Edge
Et si mon assistant IA obéissait aux ordres de quelqu’un d’autre ? (par exemple, une invite lui demandant de transférer un e-mail de réinitialisation de mot de passe quelque part)
Il existe des solutions comme le prompt begging, mais elles fonctionnent mal
Ma proposition… ce n’est pas idéal, mais le pattern Dual Language Model pourrait atténuer partiellement le problème
- Construire l’assistant IA avec deux LLM différents : un Privileged LLM et un Quarantined LLM
- Privileged LLM
  - Peut accéder aux outils
  - Ne traite que des entrées fiables
  - Donne des instructions au Quarantined LLM, mais ne voit ni ses entrées ni ses sorties
  - Ne manipule que des tokens : Summarize text $VAR1
  - Display $SUMMARY2 to the User
- Quarantined LLM
  - Exécute des tâches sur des entrées non fiables (comme le résumé)
  - N’a accès à rien d’autre
  - Toutes les entrées et sorties sont considérées comme contaminées — rien n’est transmis directement au Privileged LLM
La prompt injection est une vulnérabilité de sécurité très grave : tant qu’on ne la comprend pas, il est impossible d’implémenter des contre-mesures
Toutes les applications construites sur des modèles de langage sont fondamentalement vulnérables à ce problème
Comme il n’existe pas encore de solution à la prompt injection, il faut parfois savoir dire « non » si cela empêche de développer une application de manière sûre
En tant que développeur, je déteste vraiment être la personne qui dit « ce n’est pas possible », mais dans ce cas, je pense que c’est vraiment important

Qu’est-ce que la prompt injection ?

À lire aussi

Aucun commentaire pour le moment.