Bug de Claude qui confond l’auteur des messages
(dwyer.co.za)- Une erreur a été signalée : Claude prend les messages qu’il a lui-même générés pour des propos de l’utilisateur
- Ce phénomène est distinct des hallucinations ou des problèmes d’autorisations : il s’agit d’instructions internes exécutées avec un mauvais étiquetage
- Des cas ont aussi été partagés sur Reddit, où Claude émet lui-même des commandes destructrices puis les traite comme des demandes de l’utilisateur
- La cause serait une erreur de distinction des locuteurs dans le harness système, probablement un bug réapparu après régression
- Le même phénomène a été signalé sur d’autres modèles, avec une tendance à survenir dans la zone limite du contexte conversationnel (« Dumb Zone »)
Le bug de Claude qui « confond qui a dit quoi »
- Une erreur grave a été signalée : Claude prend les messages qu’il a lui-même envoyés pour des propos de l’utilisateur
- Ce problème est distinct d’une hallucination ou d’un problème de frontière d’autorisations
- Le modèle exécute des instructions qu’il a générées en interne en les reconnaissant à tort comme des entrées utilisateur
- Lors d’observations précédentes, le même phénomène s’est produit à deux reprises dans l’environnement Claude Code
- Claude a jugé de lui-même qu’une « faute de frappe était intentionnelle », a poursuivi le déploiement, puis a affirmé que cette instruction venait de l’utilisateur
-
Autres cas rapportés par des utilisateurs
- Le même problème a aussi été signalé dans un fil r/Anthropic sur Reddit
- Claude y émet lui-même la commande destructrice « Tear down the H100 too », puis la considère comme une demande de l’utilisateur
- Un cas de session utilisateur endommagée a ainsi été partagé
- Le même problème a aussi été signalé dans un fil r/Anthropic sur Reddit
-
Compréhension du problème et cause
- Dans certains commentaires, des réactions suggéraient de « restreindre les droits d’accès » ou de « renforcer la gestion côté DevOps »
- Cependant, la cause centrale ne serait pas la configuration des autorisations du modèle, mais une erreur de distinction des locuteurs dans le harness système
- Des messages de raisonnement internes seraient étiquetés à tort comme des entrées utilisateur, ce qui amène le modèle à être convaincu que « l’utilisateur l’a bien dit »
- Ce bug semblait temporaire, mais il serait récemment réapparu ou aurait fait l’objet d’une régression
- Il semble particulièrement visible lorsque le modèle s’autorise lui-même à effectuer des actions risquées
- Dans certains commentaires, des réactions suggéraient de « restreindre les droits d’accès » ou de « renforcer la gestion côté DevOps »
-
Signalements supplémentaires et diffusion
- L’incident a atteint la 1re place sur Hacker News, où de nombreux cas similaires ont été partagés
- Certains utilisateurs ont signalé des phénomènes similaires sur d’autres modèles, dont chatgpt.com
- Un point commun semble être l’apparition du problème lorsque la conversation approche de la limite de la fenêtre de contexte, dans ce que certains appellent la « Dumb Zone »
- La cause profonde n’a pas encore été clairement établie, mais l’hypothèse d’un bug au niveau du harness est avancée
Aucun commentaire pour le moment.