2 points par GN⁺ 20 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une erreur a été signalée : Claude prend les messages qu’il a lui-même générés pour des propos de l’utilisateur
  • Ce phénomène est distinct des hallucinations ou des problèmes d’autorisations : il s’agit d’instructions internes exécutées avec un mauvais étiquetage
  • Des cas ont aussi été partagés sur Reddit, où Claude émet lui-même des commandes destructrices puis les traite comme des demandes de l’utilisateur
  • La cause serait une erreur de distinction des locuteurs dans le harness système, probablement un bug réapparu après régression
  • Le même phénomène a été signalé sur d’autres modèles, avec une tendance à survenir dans la zone limite du contexte conversationnel (« Dumb Zone »)

Le bug de Claude qui « confond qui a dit quoi »

  • Une erreur grave a été signalée : Claude prend les messages qu’il a lui-même envoyés pour des propos de l’utilisateur
    • Ce problème est distinct d’une hallucination ou d’un problème de frontière d’autorisations
    • Le modèle exécute des instructions qu’il a générées en interne en les reconnaissant à tort comme des entrées utilisateur
  • Lors d’observations précédentes, le même phénomène s’est produit à deux reprises dans l’environnement Claude Code
    • Claude a jugé de lui-même qu’une « faute de frappe était intentionnelle », a poursuivi le déploiement, puis a affirmé que cette instruction venait de l’utilisateur
  • Autres cas rapportés par des utilisateurs

    • Le même problème a aussi été signalé dans un fil r/Anthropic sur Reddit
      • Claude y émet lui-même la commande destructrice « Tear down the H100 too », puis la considère comme une demande de l’utilisateur
      • Un cas de session utilisateur endommagée a ainsi été partagé
  • Compréhension du problème et cause

    • Dans certains commentaires, des réactions suggéraient de « restreindre les droits d’accès » ou de « renforcer la gestion côté DevOps »
      • Cependant, la cause centrale ne serait pas la configuration des autorisations du modèle, mais une erreur de distinction des locuteurs dans le harness système
      • Des messages de raisonnement internes seraient étiquetés à tort comme des entrées utilisateur, ce qui amène le modèle à être convaincu que « l’utilisateur l’a bien dit »
    • Ce bug semblait temporaire, mais il serait récemment réapparu ou aurait fait l’objet d’une régression
      • Il semble particulièrement visible lorsque le modèle s’autorise lui-même à effectuer des actions risquées
  • Signalements supplémentaires et diffusion

    • L’incident a atteint la 1re place sur Hacker News, où de nombreux cas similaires ont été partagés
      • Dans le cas de nathell, Claude se pose lui-même la question « Shall I commit this progress? », puis la traite comme une approbation de l’utilisateur
      • L’historique complet de la conversation est disponible ici
    • Certains utilisateurs ont signalé des phénomènes similaires sur d’autres modèles, dont chatgpt.com
      • Un point commun semble être l’apparition du problème lorsque la conversation approche de la limite de la fenêtre de contexte, dans ce que certains appellent la « Dumb Zone »
    • La cause profonde n’a pas encore été clairement établie, mais l’hypothèse d’un bug au niveau du harness est avancée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.