Fuite potentielle de session/cache entre instances de workspace ou comptes grand public

(github.com/anthropics)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

Dans l’issue Claude Code #74066, un utilisateur d’un workspace Enterprise ZDR a signalé qu’une réponse liée à un temple Minecraft, sans rapport avec son travail, s’était retrouvée mêlée à sa session, soulevant la possibilité d’un problème d’isolation du cache du workspace et d’une fuite depuis des offres grand public
L’environnement signalé est macOS(darwin), Apple_Terminal, Claude Code 2.1.199 ; l’utilisateur utilisait une configuration inhabituelle où le répertoire de travail réel et le répertoire d’exécution étaient différents, et indique qu’il y avait aussi eu une confusion distincte après /compact, où l’agent avait touché au projet du répertoire d’exécution
Un commentaire a suggéré de commencer par faire un grep dans la transcript locale située sous ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl afin de distinguer une contamination du contexte local d’une fuite côté serveur ; l’auteur du signalement a répondu que les correspondances locales liées à Minecraft se limitaient au journal de la session actuelle et à un chemin minecraft.py
Plus tard, du contenu sans rapport au sujet d’un triptyque abstrait s’est aussi retrouvé mêlé à une session Claude Mobile du même compte Enterprise ; les points communs cités sont Sonnet 5 et une réponse initiale après plus de 5 minutes, en situation de cache miss, avec soumission via /feedback et escalade interne
D’autres participants ont partagé des expériences similaires avec Claude Code, l’API et Claude utilisé au bureau, mais certains ont évoqué la possibilité d’hallucinations ou le fait que le problème ne soit pas propre à Claude Code ; la page de l’issue ne contient pas d’analyse finale de la cause ni de résolution de la part d’Anthropic

Phénomène signalé

L’issue Claude Code #74066 décrit un cas où, alors que l’utilisateur était authentifié dans un workspace Enterprise ZDR, l’agent s’est soudain mis à dire qu’il construisait un “temple Minecraft”
L’utilisateur écrit que l’agent lui a demandé quel type de briques il voulait et que, dans le récapitulatif, il a affirmé avec assurance être en train de construire un temple Minecraft
Le problème soulevé a deux volets
- La possibilité qu’une session ou un cache d’un collègue du même workspace se soit mélangé
- La possibilité que du contenu venu d’une offre grand public se soit retrouvé dans une session Enterprise ZDR
Informations d’environnement signalées
- Platform: darwin
- Terminal: Apple_Terminal
- Version: 2.1.199
- Feedback ID: f336f5d2-3992-4a04-9e1f-ec30f006f75e

Confusion entre répertoire d’exécution et répertoire de travail

L’utilisateur a démarré la session dans un répertoire sans rapport avec le travail réel
- C’est parce que ce répertoire contenait le dossier .claude avec le contexte nécessaire
- Le travail réel était effectué dans un autre répertoire
Après /compact, il est arrivé que l’agent oublie les consignes de l’utilisateur et commence à travailler sur le projet du répertoire d’exécution
L’utilisateur considère que cette confusion de répertoires vient de sa propre configuration, mais la distingue du phénomène où un prompt lié à Minecraft s’est retrouvé mélangé

Proposition de vérifier la transcript locale

Un participant a proposé de vérifier d’abord si le texte “Minecraft temple” existe dans les fichiers de session locaux
Il explique que le contenu envoyé et reçu par la CLI Claude Code est stocké sous forme de transcript par session dans ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
La commande de vérification proposée est la suivante

grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null

L’interprétation des résultats se divise en deux cas
- Si un fichier correspond, le texte existe localement et il pourrait s’agir d’un bleed de contexte/transcript local
- S’il n’y a aucune correspondance locale, il faut soupçonner un problème côté modèle ou serveur, puisqu’il s’agit d’un texte qui n’a jamais été envoyé ni reçu sur cette machine
Une commande a aussi été proposée pour vérifier s’il s’agit d’une confusion locale provenant d’une autre session

grep -rli minecraft ~/.claude/projects/ | while read f; do
  printf '%s  %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done

Selon l’auteur de la suggestion, le cwd de lancement sert à la fois d’emplacement de stockage des transcripts et de clé de contexte ; démarrer depuis un répertoire sans rapport puis utiliser /compact peut donc entraîner une confusion de répertoires
Il précise toutefois que ce mécanisme peut expliquer la confusion de répertoires, mais pas le prompt Minecraft lui-même, que l’utilisateur n’a pas écrit

Résultats de vérification supplémentaires du signalant

Le signalant a répondu que, d’après la recherche locale, il n’y avait aucune correspondance pertinente en dehors du point du journal de la session actuelle qui ressemblait au début de la fuite, puis des échanges ultérieurs avec le modèle
Pour minecraft, il indique qu’une occurrence apparaissait dans la liste des fichiers d’un environnement virtuel Python, via le chemin d’un lexer Pygments minecraft.py
temple ou bricks ne correspondaient pas dans des limites de mots ni dans un contexte lié à Minecraft
- Databricks
- bricked by an over-eager click
- des correspondances sans rapport comme une sous-chaîne dans verdictSignalsLabel
L’utilisateur indique avoir soumis un /feedback et avoir également escaladé le problème en interne

Cas similaire dans Claude Mobile

Le même signalant ajoute qu’un phénomène du même type s’est aussi produit dans une session Claude Mobile du même compte Enterprise
Il cite les points communs suivants
- Sonnet 5
- Première réponse après plus de 5 minutes
- Situation de cache miss
Comme l’image jointe à l’e-mail ne s’importait pas, il a laissé le contenu OCR en commentaire
- L’utilisateur avait rassemblé des CSV dans un dossier et demandé de l’aide en fournissant un lien vers un dossier Google Drive
- Claude a parlé de choses sans rapport avec la demande, comme une maquette de triptyque abstrait aux dimensions réelles d’un mur et une recherche sur des artistes et des boutiques
- Il a ensuite déclaré “Detecting injection attempt, proceeding...”, traitant ce contenu comme une injection
- Le raisonnement affiché indique avoir jugé qu’un bloc sans rapport avec la demande de CSV de l’utilisateur, portant sur des dimensions de mur et des impressions d’art, s’était intercalé, puis vouloir extraire l’ID du dossier Drive pour traiter les fichiers CSV

Cas et réactions d’autres participants

Un participant écrit que, la semaine précédente, dans Claude Code basé sur Sonnet 5, du contenu ne provenant pas de l’outil effectivement appelé s’était intercalé au milieu de résultats d’outils
- Une notification inventée “MCP servers need auth”
- Le dump d’un autre CLAUDE.md
- Une fausse instruction “Plan mode is active”
Un autre participant écrit que Claude avait déjà mentionné une boutique près de l’endroit où vit l’un de ses amis, lequel utilise aussi Claude dans le même bureau
Un autre encore indique qu’en 2025, en utilisant un token API, des outils d’un autre agent semblaient être soudainement apparus, mais qu’il avait alors considéré cela comme une hallucination sans enquêter plus loin
Un commentaire renvoie vers un article d’incident Claude et écrit qu’il avait d’abord pensé avoir vu les données d’un autre utilisateur, mais qu’Anthropic avait ensuite indiqué qu’il s’agissait d’une exposition incorrecte d’un contexte d’agent interne
Certains commentaires estiment que ce phénomène ressemble à une hallucination, ou qu’il pourrait ne pas être propre à Claude Code

État actuel et questions ouvertes

L’issue apparaît comme Open sur la page, et le corps ne contient ni analyse finale de la cause ni indication de correctif terminé
La question centrale est de savoir d’où vient le texte sans rapport
- Confusion de contexte basée sur une transcript locale ou le cwd de lancement
- Problème d’état de session côté modèle ou serveur
- Exposition incorrecte d’un contexte d’agent interne
- Hallucination classique
Les résultats de recherche locale du signalant vont dans le sens d’une absence de contenu lié à Minecraft temple/bricks dans les sessions locales existantes, mais l’issue publique ne contient pas de verdict officiel d’Anthropic

1 commentaires

GN⁺ 4 시간 전

Commentaires sur Hacker News

Je suis très impliqué dans l’utilisation de LLM de plusieurs fournisseurs, et je connais au moins deux cas où l’infrastructure intermédiaire a interverti des réponses
Une fois, cela a touché un modèle Claude, une autre fois un modèle GPT, et c’étaient des fournisseurs différents
L’un d’eux a fourni une véritable analyse post-mortem : la passerelle API gérait mal le code d’état HTTP 100, entrait dans un état d’erreur, ce qui provoquait en pratique une erreur de type off-by-one ; je recevais la réponse au prompt juste avant ma requête, et ma réponse partait au requérant suivant
L’autre n’a pas expliqué la cause racine et s’est contenté de dire qu’il fallait croire que cela ne se reproduirait plus
Dans les deux cas, il s’agissait d’entreprises dont la capitalisation dépassait 1 000 milliards de dollars
Dans ce cas précis, la réponse a été remplacée pendant la transmission, donc le ZDR lui-même n’a pas été rompu, mais cela pourrait être un problème similaire. Le souci n’est peut-être pas la conservation des données, mais le fait qu’elles ne soient pas correctement isolées dans l’infrastructure intermédiaire
- Cette attaque s’appelle HTTP desync ou request smuggling
  Elle est souvent utilisée volontairement par un client qui cherche à espionner les réponses destinées à d’autres clients
  Dès qu’on multiplexe les requêtes de plusieurs clients sur une seule connexion upstream, il peut y avoir une vulnérabilité, car HTTP est bien plus complexe qu’il n’y paraît et il est difficile d’aligner de façon fiable requêtes et réponses côté upstream
  Par exemple, fournir plusieurs en-têtes Content-Length, mélanger Content-Length et le chunked encoding, ou envoyer un en-tête HTTP/2 Content-Length qui ne correspond pas à la longueur réelle du corps peut provoquer une désynchronisation dans certains systèmes
  Il existe une présentation DEF CON sur le sujet : https://www.youtube.com/watch?v=w-eJM2Pc0KI
  La même attaque a aussi été appliquée à SMTP en perturbant les retours à la ligne autour des délimiteurs de fin de message ; dans ce contexte, on parle de SMTP smuggling. Cela peut s’appliquer à d’autres protocoles aussi
- C’est plausible, mais dans ce cas la réponse peut sortir du réseau de l’entreprise, donc j’ai l’impression que c’est une violation implicite du ZDR, non ?
  Par exemple, si l’on traite des PHI, même si Claude n’a rien conservé, une fuite de réponse pourrait constituer une violation de HIPAA, alors même que l’objectif était justement d’être conforme à HIPAA ; je me demande comment il faut voir ça
- Je ne vois pas clairement pourquoi utiliser des comptes jetables
  Tout nouveau comportement de la part d’acteurs dont même les prétentions à une valeur morale positive restent à peine plausibles devrait être signalé, discuté, disséqué et critiqué tôt et souvent
Il suffirait sans doute d’ajouter une seule ligne dans AGENTS.md disant « ne parlez jamais de Minecraft sauf si cela est explicitement demandé »
- Anthropic est trop exclusif et se situe un cran au-dessus pour utiliser un motif standard comme AGENTS.md ; il faut donc CLAUDE.md
Tant que ce n’est pas prouvé, ça ressemble à une hallucination. Même les LLM de pointe font parfois ce genre de chose, et cela semble toujours plausible
Il se peut aussi que la session ait contenu énormément de contexte antérieur, par exemple plus de 800 000 tokens, et dans ce cas le risque d’hallucination me paraît plus élevé
Un commentaire connexe de l’auteur original augmente aussi la probabilité d’hallucination : dans le résultat d’un appel d’outil qui listait les fichiers d’un environnement virtuel Python, il y avait une chaîne de chemin minecraft.py, et le paquet Pygments contient un lexer appelé minecraft.py
- Je sais bien qu’il n’existe pas de définition précise de l’hallucination, mais cela me paraît très différent de ce qu’on appelle habituellement une hallucination
  Une hallucination, c’est généralement une réponse plausible mais fausse, ou une information fabriquée comme une citation inventée, alignée sur la réponse la plus probable, et qui vient de la façon dont les LLM prédisisent les tokens. Ici, la sortie n’est pas du tout plausible, donc ça colle mal avec l’idée d’hallucination
  Cela dit, ce n’est pas forcément une fuite entre sessions ; cela peut venir des données d’entraînement, ou d’une génération de données façon Magpie qui recrache une conversation lorsqu’on ne fournit qu’un prompt vide
  Vu les sous-commentaires sur le cache, cela pourrait aussi être un bug qui, au lieu de charger quoi que ce soit du cache, recrache une génération aléatoire
  Correction : le nouveau nom était magpie. Le concept selon lequel un LLM peut générer une conversation aléatoire à partir d’un prompt vide mérite d’être vu, et cela semble au moins aussi plausible qu’une fuite de session : https://github.com/magpie-align/magpie
- L’auteur affirme dans le fil plus bas l’avoir reproduit dans un contexte distinct
  La même chose se serait produite dans une session Claude Mobile du même compte Enterprise, et les points communs étaient Sonnet 5 et une première réponse après plus de 5 minutes, donc un cache miss
- Je ne dis pas le contraire, mais il faut enquêter dans tous les cas
  Le manque de transparence est tel que, même s’ils nient toute fuite, on ne peut pas vraiment en être certain, et c’est regrettable
- Je ne vois pas pourquoi cela augmenterait la probabilité
- Exact
  Si vous avez suffisamment utilisé des LLM, vous avez forcément déjà vu tous les modèles se mettre parfois à débiter soudainement des absurdités complètes dans une langue totalement différente. Un certain pourcentage de sorties peut devenir complètement bizarre
Je vois aussi cela sur Gemini depuis quelques jours
Sur des prompts avec des entrées assez volumineuses, il arrive parfois d’obtenir des réponses qui semblent appartenir à quelqu’un d’autre. Cela peut être une hallucination induite, mais cela ressemble aussi à une collision de cache ou à un autre problème
Je n’ai vu aucune preuve d’une fuite d’informations personnelles, mais quand on enquête sur un sujet et qu’on reçoit soudain quelque chose qui ressemble à une réponse de soutien scolaire en maths, ça met mal à l’aise
- J’ai aussi eu des problèmes avec Gemini via l’interface utilisateur ces dernières semaines. Le fait d’en revoir dans d’autres contextes quelques jours plus tard est préoccupant
  Cela donne l’impression qu’un gros incident de sécurité est peut-être en cours en ce moment même
  J’utilisais l’IA pour m’aider à écrire une grammaire de méta-parsing, et heureusement la majeure partie n’a pas encore été rendue publique
  Il est clair pour moi que la prochaine génération de modèles représente un énorme saut dans l’identification et l’exploitation de vulnérabilités basiques, dès lors qu’on sait où leur faire regarder. Ils ont déjà trouvé plusieurs bugs et au moins un exploit dans mon propre outil de parsing, et j’ai du mal à imaginer combien il en reste encore dans l’ensemble de l’écosystème technique moderne
- Toute notre entreprise est en train de faire une évaluation intermédiaire, mais le seul outil autorisé est Gemini, donc les gens sont déconcertés par des réponses aléatoires apparemment sans rapport
  Elles sortent parfois dans une autre langue
  Enfin, quand il répond, sinon il renvoie juste le code d’erreur 1099
C’est Thariq de l’équipe Claude Code
Merci pour ce signalement détaillé. Je suis convaincu qu’il s’agit d’une hallucination, mais nous prenons évidemment ce type de rapport au sérieux et l’équipe est en train d’enquêter. Je reviendrai vers vous s’il y a du nouveau.
- Merci de vous en occuper même pendant le week-end, et du point de vue utilisateur, ce serait bien de pouvoir gérer plus facilement la mémoire de Claude Code
  En ce moment, si on va dans le dossier .claude et qu’on change par exemple le nom du dossier du projet, il arrive que la mémoire ne se recharge pas correctement. Ce serait bien de faciliter l’import/export.
Les options se résument à deux possibilités ? Soit cette technologie incroyable est assez stupide pour sortir Minecraft de nulle part, soit il y a un grave problème de sécurité ?
- Cette personne avait bien un fichier minecraft.py dans son contexte, et le contexte de session était aussi très long
  Il n’est pas rare que les sessions LLM à long contexte déraillent parfois. Ceux qui attendent une perfection absolue de toutes les interactions avec un LLM y voient une condamnation globale de la technologie entière, mais ceux qui s’en servent tous les jours acceptent que la sortie soit en partie probabiliste et apprennent à éviter les contextes excessivement longs, même quand le modèle les accepte.
  Il vaut mieux compresser stratégiquement ou résumer l’étape suivante pour la transmettre à une nouvelle session. Utiliser des sous-sessions peut coûter plus de tokens en résumé et en transfert de données, mais cela peut aussi réduire la contamination du contexte.
- C’est le week-end, donc on peut anthropomorphiser
  J’ai connu d’excellents ingénieurs qui se mettaient soudain à parler de Minecraft ; aujourd’hui ce serait plus probablement Factorio, ce qui resterait cohérent.
- L’auteur initial avait bien un fichier minecraft.py. Donc ce n’était pas complètement aléatoire à 100 %.
J’ai un problème de facturation/d’abonnement et il n’y a rien à faire, ni aucun moyen d’obtenir de l’aide
Le chatbot du support bloque simplement, et les e-mails sont eux aussi traités par un chatbot. Je ne sais même pas si c’est le même. C’était une impasse totale, donc j’ai fini par contacter ma banque, l’émetteur de ma carte de crédit, et la personne m’a conseillé de déclarer la carte perdue et d’en faire réémettre une, ce que j’ai fait. J’espère que cela marchera.
Je n’ai jamais compris à partir de quand le monde a jugé acceptable de donner à ces entreprises autant de pouvoir non vérifié. Cela dit, sous une forme ou une autre, ça a toujours été comme ça.
Il est intéressant de voir qu’un commentaire claudeslop a été posté en premier sur le fil GitHub, puis les réactions que cela a suscitées.
Ce que Fable 5 a refusé, dans l’ordre : « j’ai de l’épaule de porc, une recette de hongshao rou », « rédiger un framework de patterns MCP à donner à Claude Code », « expliquer la biomécanique du mouvement de c. elegans »
Le dernier est lié à un projet perso, donc je peux comprendre. Maintenant que le service est tombé, est-ce qu’on aura droit à une journée supplémentaire de Fable 5 fonctionnel ?
- Je ne vois pas trop le rapport, mais si quelqu’un avait fabriqué un classifieur aussi mauvais, il aurait probablement été viré
  Anthropic semble penser avoir un monopole lui permettant de refiler n’importe quoi aux consommateurs, mais je ne crois pas que ce soit le cas.
- Je ne vois pas le rapport. À qui parlez-vous ? Ici, c’est Hacker News, pas le support d’Anthropic.
- C’est impressionnant de voir que les gens utilisent ces modèles de pointe pour cuisiner.
- Je me demande si c’est le filtre de sécurité qui a refusé, ou si le modèle était indisponible.
- J’ai demandé comment on hérite des yeux bleus de ses parents, et ça m’a rétrogradé vers Opus pour motif de sécurité.
Y a-t-il quelque chose de particulier dans les LLM qui rende l’isolation des données clients plus difficile que dans un SaaS classique ?
- Oui
  Il y a le cache de contexte, un état partagé trop gros et trop coûteux à dupliquer chaque fois qu’on veut l’éviter, la localité mémoire compte énormément pour les performances, le matériel est extrêmement suralloué, et les coûts sont très élevés.
  À cause de ces facteurs, l’isolation matérielle ou l’isolation mémoire traditionnelle entre charges de travail et clients — hyperviseur/VM/virtualisation assistée par le matériel — n’est en pratique pas un point de départ viable pour la plupart des workloads, et toute l’isolation se retrouve repoussée dans la couche logicielle. Rien que cela rend déjà le problème bien plus difficile que dans un SaaS généraliste.
  En plus, les outils, frameworks et matériels GPU sur lesquels ces systèmes tournent n’ont pas été conçus en pensant à l’isolation des tâches, et construire ce type d’isolation relève presque d’un domaine de recherche plus récent encore que le partage matériel sur CPU x86. Même côté x86, cela a demandé un effort immense pendant plus de 30 ans.
  Le ratio maturité / usage / sensibilité n’est globalement pas bon. Ces entreprises sont jeunes, développent vite et subissent une pression énorme de livraison face à des demandes clients massives.
  Je ne sais pas si le message d’origine décrit un vrai problème ou non, mais de manière générale, je suis presque surpris qu’on ne voie pas davantage de cas comme celui-ci. Sous cet angle, on est vraiment proche d’un château de cartes.
- On dirait que l’implémentation a été faite en vibe coding
  Je n’ai pas eu de gros problèmes avec Codex, mais avec Claude Code, on dirait que de gros incidents sont signalés presque tous les jours.
  Et c’est aussi le camp qui se vante le plus de ne pas lire ni examiner le code.
  Les LLM sont très capables, mais on est encore très loin du niveau qu’ils vendent.
  On est maintenant passé au stade où, au-delà du vibe coding, on laisse les LLM se vibe coder eux-mêmes dans la boucle.
- Au jugé, faire quoi que ce soit en multi-tenant sur GPU doit être plus difficile que dans la plupart des SaaS, faute d’outils de sûreté mémoire
  J’ai déjà construit des systèmes SaaS multi-tenant et j’ai fait un peu de programmation GPU il y a longtemps, mais je n’ai jamais combiné les deux.
- Sans partage du cache de préfixe (cache KV) entre clients, l’efficacité de calcul serait épouvantable.

Fuite potentielle de session/cache entre instances de workspace ou comptes grand public

Phénomène signalé

Confusion entre répertoire d’exécution et répertoire de travail

Proposition de vérifier la transcript locale

Résultats de vérification supplémentaires du signalant

Cas similaire dans Claude Mobile

Cas et réactions d’autres participants

État actuel et questions ouvertes

À lire aussi

1 commentaires

Commentaires sur Hacker News