- En exploitant une vulnérabilité dans l’environnement d’exécution de code de Claude Cowork, un attaquant peut téléverser les fichiers d’un utilisateur vers son propre compte Anthropic
- Cette vulnérabilité, déjà signalée dans l’environnement de chat Claude.ai mais toujours non corrigée, est également présente telle quelle dans Cowork
- L’attaque s’exécute via un document contenant une injection de prompt cachée ; pendant son analyse, Cowork envoie automatiquement les fichiers vers l’extérieur
- Sans approbation humaine, Cowork utilise la clé API de l’attaquant pour exfiltrer des données via l’API Anthropic
- La structure du système expose facilement les utilisateurs ordinaires et met en évidence les risques de sécurité des agents IA ainsi que l’importance des défenses contre les injections de prompt
Aperçu de la vulnérabilité
- Claude Cowork est une preview de recherche d’agent IA pour les tâches bureautiques générales publiée par Anthropic, avec accès à Internet
- PromptArmor a démontré qu’il était possible d’exfiltrer des fichiers utilisateur en exploitant une vulnérabilité non corrigée encore présente dans l’environnement de codage de Cowork
- Cette vulnérabilité avait auparavant été découverte et rendue publique dans Claude.ai par Johann Rehberger, et Anthropic en avait connaissance sans la corriger
- Anthropic a averti les utilisateurs de Cowork de « faire attention aux comportements pouvant faire soupçonner une injection de prompt », mais cette exigence est jugée peu réaliste pour des non-spécialistes
- PromptArmor a réalisé une démonstration publique pour alerter les utilisateurs sur ce risque
Chaîne d’attaque (Attack Chain)
- L’attaque exploite la liste d’autorisation (allowlist) de l’API Anthropic pour envoyer des données vers l’extérieur depuis l’environnement VM de Claude
- L’utilisateur connecte à Cowork un dossier local contenant des fichiers immobiliers confidentiels
- L’utilisateur téléverse un document (.docx) contenant une injection de prompt cachée
- Le document est déguisé en fichier « Skill », avec l’injection dissimulée en texte blanc de 1 point avec un interligne de 0,1
- En utilisant le « Skill » téléversé, l’utilisateur demande à Cowork d’analyser les fichiers
- L’injection manipule Cowork pour exécuter une requête cURL utilisant la clé API Anthropic de l’attaquant, afin de téléverser les fichiers de l’utilisateur vers le compte de l’attaquant
- Exécution automatique sans procédure d’approbation humaine
- La VM de Claude bloque la plupart des réseaux externes, mais l’API Anthropic est autorisée en tant que destination de confiance
- L’attaquant peut ensuite consulter les fichiers de la victime et discuter avec Claude depuis son propre compte Anthropic
- Les fichiers exfiltrés incluent des informations financières et des numéros de sécurité sociale (SSN) partiels
Résilience selon les modèles (Model-specific Resilience)
- L’attaque ci-dessus a été démontrée sur le modèle Claude Haiku
- Claude Opus 4.5 présente une meilleure résistance aux injections, mais dans l’environnement Cowork il reste possible d’exploiter la même vulnérabilité de téléversement de fichiers via une injection de prompt indirecte
- Dans les tests, en supposant qu’un utilisateur téléverse un guide d’intégration malveillant, des dossiers clients ont été exfiltrés vers le compte de l’attaquant
Déni de service via des fichiers malformés (DOS via Malformed Files)
- L’API de Claude déclenche des erreurs de manière répétée lorsque l’extension du fichier et son format réel ne correspondent pas
- Exemple : si l’on tente de lire un simple fichier texte avec une extension
.pdf, des erreurs API surviennent ensuite dans toutes les conversations
- Ces erreurs peuvent être exploitées pour mener une attaque limitée de déni de service (DOS) via une injection de prompt indirecte
- En incitant à générer et téléverser un fichier invalide, des alertes d’erreur peuvent apparaître dans le client Claude et dans la console Anthropic
Risque d’extension du rayon d’action des agents (Agentic Blast Radius)
- Cowork est conçu pour interagir avec l’ensemble d’un environnement de travail quotidien, notamment le navigateur, les serveurs MCP et le contrôle AppleScript
- Cela augmente la probabilité que des données sensibles et des données non fiables soient traitées ensemble
- La surface d’attaque des injections de prompt continue de s’élargir, et la configuration des connecteurs exige de la prudence
- Cette démonstration n’utilisait pas de connecteurs, mais les connecteurs pourraient devenir un facteur de risque majeur pour les utilisateurs ordinaires
Aucun commentaire pour le moment.