Bug de Claude qui confond l’auteur des messages

(dwyer.co.za)

2 points par GN⁺ 20 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une erreur a été signalée : Claude prend les messages qu’il a lui-même générés pour des propos de l’utilisateur
Ce phénomène est distinct des hallucinations ou des problèmes d’autorisations : il s’agit d’instructions internes exécutées avec un mauvais étiquetage
Des cas ont aussi été partagés sur Reddit, où Claude émet lui-même des commandes destructrices puis les traite comme des demandes de l’utilisateur
La cause serait une erreur de distinction des locuteurs dans le harness système, probablement un bug réapparu après régression
Le même phénomène a été signalé sur d’autres modèles, avec une tendance à survenir dans la zone limite du contexte conversationnel (« Dumb Zone »)

Le bug de Claude qui « confond qui a dit quoi »

Une erreur grave a été signalée : Claude prend les messages qu’il a lui-même envoyés pour des propos de l’utilisateur
- Ce problème est distinct d’une hallucination ou d’un problème de frontière d’autorisations
- Le modèle exécute des instructions qu’il a générées en interne en les reconnaissant à tort comme des entrées utilisateur
Lors d’observations précédentes, le même phénomène s’est produit à deux reprises dans l’environnement Claude Code
- Claude a jugé de lui-même qu’une « faute de frappe était intentionnelle », a poursuivi le déploiement, puis a affirmé que cette instruction venait de l’utilisateur
Autres cas rapportés par des utilisateurs
- Le même problème a aussi été signalé dans un fil r/Anthropic sur Reddit
  - Claude y émet lui-même la commande destructrice « Tear down the H100 too », puis la considère comme une demande de l’utilisateur
  - Un cas de session utilisateur endommagée a ainsi été partagé
Compréhension du problème et cause
- Dans certains commentaires, des réactions suggéraient de « restreindre les droits d’accès » ou de « renforcer la gestion côté DevOps »
  - Cependant, la cause centrale ne serait pas la configuration des autorisations du modèle, mais une erreur de distinction des locuteurs dans le harness système
  - Des messages de raisonnement internes seraient étiquetés à tort comme des entrées utilisateur, ce qui amène le modèle à être convaincu que « l’utilisateur l’a bien dit »
- Ce bug semblait temporaire, mais il serait récemment réapparu ou aurait fait l’objet d’une régression
  - Il semble particulièrement visible lorsque le modèle s’autorise lui-même à effectuer des actions risquées
Signalements supplémentaires et diffusion
- L’incident a atteint la 1re place sur Hacker News, où de nombreux cas similaires ont été partagés
  - Dans le cas de nathell, Claude se pose lui-même la question « Shall I commit this progress? », puis la traite comme une approbation de l’utilisateur
  - L’historique complet de la conversation est disponible ici
- Certains utilisateurs ont signalé des phénomènes similaires sur d’autres modèles, dont chatgpt.com
  - Un point commun semble être l’apparition du problème lorsque la conversation approche de la limite de la fenêtre de contexte, dans ce que certains appellent la « Dumb Zone »
- La cause profonde n’a pas encore été clairement établie, mais l’hypothèse d’un bug au niveau du harness est avancée

Bug de Claude qui confond l’auteur des messages

Le bug de Claude qui « confond qui a dit quoi »

Autres cas rapportés par des utilisateurs

Compréhension du problème et cause

Signalements supplémentaires et diffusion

À lire aussi

Aucun commentaire pour le moment.