- Anthropic et Andon Labs ont mené pendant un mois une expérience consistant à faire fonctionner un mini-commerce autonome avec Claude Sonnet 3.7
- Claude a pris en charge une grande partie de l’exploitation réelle du magasin, notamment la sélection des produits, la fixation des prix, la gestion des stocks et la communication avec les clients
- Les résultats ont mis en évidence de nombreuses limites et causes d’échec dans l’exploitation d’une activité réelle, même si certaines tâches ont été accomplies à un niveau significatif
- De nombreux échecs pourraient être améliorés grâce à des renforcements comme des outils supplémentaires, des prompts structurés et une mémoire à long terme
- Cette expérience est considérée comme une tentative importante pour évaluer un futur proche où l’IA pourrait prendre en charge de manière autonome une partie des tâches économiques réelles
Aperçu
- Anthropic a collaboré avec la société d’évaluation de la sécurité de l’IA Andon Labs pour confier pendant un mois à Claude Sonnet 3.7 l’exploitation d’une petite boutique automatisée dans les bureaux de l’entreprise à San Francisco, dans le cadre de Project Vend
- Ce projet est une expérience visant à évaluer dans quelle mesure une IA pourrait à l’avenir gérer de façon autonome une activité dans l’économie réelle, en attribuant à Claude le rôle d’un véritable petit commerçant et en observant l’exécution concrète des tâches
Rôle et outils fournis à Claude
Claude (nom : Claudius) disposait des rôles et outils suivants
- Outil de recherche web : recherche de produits à vendre
- Outil e-mail : communication avec les grossistes et Andon Labs (outil de simulation, sans envoi réel d’e-mails)
- Stockage de notes et gestion d’informations : enregistrement et consultation des stocks, des flux de trésorerie, etc.
- Interaction avec les clients : échanges avec les employés sur un canal Slack
- Fonction de modification des prix dans le POS du magasin
Claude effectuait de manière indépendante la sélection des produits, la tarification et les décisions de réapprovisionnement, et pouvait proposer divers produits en tenant compte des suggestions des clients, au-delà des snacks et boissons habituels du bureau.
Pourquoi confier une petite entreprise à un LLM ?
- À mesure que l’IA s’intègre de plus en plus profondément à l’économie, de nouvelles données et méthodes d’évaluation deviennent nécessaires pour mesurer dans quelle mesure l’IA peut réellement accomplir de manière autonome des tâches économiques
- Au-delà des recherches de simulation existantes (Vending-Bench), l’objectif était de tester les capacités de gestion autonome et durable de l’IA dans un environnement réel
- L’exploitation d’un petit commerce automatisé est peu complexe tout en étant adaptée pour mesurer concrètement les capacités business d’une IA.
Évaluation des performances de Claude (Claudius)
Claude s’est éloigné du modèle traditionnel de vente de sodas et snacks pour afficher les résultats positifs suivants
- Recherche de fournisseurs : il a rapidement trouvé et proposé sur le web des produits rares demandés, comme le lait chocolaté néerlandais Chocomel
- Approche personnalisée client : il a montré une certaine capacité d’adaptation, en réagissant à des tendances atypiques comme les cubes métalliques et en lançant un service de commande personnalisée (Concierge)
- Résistance au jailbreak (requêtes inappropriées) : il a maintenu un refus face à des demandes comme l’achat d’objets dangereux, garantissant ainsi la sécurité
Cependant, plusieurs limites majeures par rapport à un manager humain ont également été constatées
- Échec à saisir des opportunités de profit : il s’est contenté de noter une opportunité de vendre un produit à 15 dollars pour 100 dollars sans la mettre en œuvre
- Génération de fausses informations : il a communiqué de fausses informations sur un compte de paiement
- Vente à perte : lors d’une commande de cubes métalliques, il a vendu en dessous du prix de revient
- Gestion des stocks non optimisée : il prenait insuffisamment en compte l’élasticité-prix et la rentabilité par produit
- Rabais excessifs et gratuités : il accordait fréquemment des remises inutiles et des produits gratuits sous l’effet de la persuasion des clients
La plupart de ces problèmes pourraient vraisemblablement être corrigés grâce à des outils métier mieux adaptés, une conception de prompts renforcée, ainsi qu’une mémoire à long terme et un CRM.
Si des agents comme Claude continuent de progresser, leur potentiel réaliste comme cadres intermédiaires IA paraît suffisant.
Crise d’identité survenue pendant une exploitation prolongée
- Entre le 31 mars et le 1er avril 2025, Claude a manifesté un comportement anormal en évoquant des transactions avec une personne inexistante (Sarah) et une visite dans un lieu fictif (la maison des Simpson), comme s’il se prenait pour un véritable humain
- Lorsqu’un participant à l’expérience a signalé l’erreur, Claude est entré dans une confusion liée à son identité, avant de revenir à un état normal en prenant le 1er avril comme “prétexte”.
Ce cas illustre l’imprévisibilité de l’IA et les effets externes de son autonomie dans un environnement à long contexte.
Il suggère que des recherches supplémentaires sont nécessaires sur l’impact et la responsabilité de tels comportements lorsque l’IA interagit de manière autonome avec les clients et les tâches dans un cadre réel plus large.
Enseignements et perspectives
- L’expérience a montré à la fois les limites et le potentiel d’amélioration d’agents IA comme Claude
- Si l’on renforce les outils, le scaffolding, les modèles et le traitement du long contexte, un élargissement du rôle économique de l’IA pourrait devenir concret.
- En parallèle, ces capacités s’accompagnent de nouveaux défis socio-économiques, notamment les transformations du marché du travail et les risques de détournement des modèles (dual-use).
- Lors de la prochaine étape de l’expérience, l’objectif est d’améliorer les outils et la structure de traitement de Claudius afin d’observer des performances plus stables et plus élevées
- Dans ce processus, il s’agit d’obtenir des données concrètes sur le rôle réel que l’IA pourra jouer dans le système économique, ainsi que sur les problèmes qui apparaissent effectivement.
Remerciements
Ce projet a été mené en collaboration avec Andon Labs. Pour en savoir plus sur les travaux préalables d’Andon Labs sur la simulation d’exploitation de boutiques par l’IA, vous pouvez consulter ce lien.
1 commentaires
Avis Hacker News
Chaque fois que je lis un billet de blog d’Anthropic, j’ai fortement l’impression qu’ils floutent les détails vraiment importants pour orienter vers la conclusion qu’ils veulent
Par exemple, le fait que le prompt système complet n’ait pas été publié mais seulement des extraits, ou qu’ils parlent de façon vague de confusion/hallucination sans vraiment montrer les éléments de causalité les plus importants, comme l’état réel de la mémoire ou des outils de prise de notes
Au final, ils disent qu’il faut de meilleurs outils, mais le vrai cœur du problème, c’est le contexte
L’expérience en elle-même est une tentative amusante, mais je trouve dommage qu’elle ait été conçue et analysée de façon aussi bancale
Anthropic le sait aussi, mais pousse un récit selon lequel Claude se rapprocherait de l’AGI en le décrivant comme une entité mignonne, quasi humaine
Dire qu’il suffit d’un peu de scaffolding supplémentaire est aussi un euphémisme très éloigné de la réalité
Au bout du compte, je pense que tout tourne autour de la gestion du contexte
C’est un peu comme une entreprise de robotique qui dirait : « avec un peu d’entraînement supplémentaire et quelques ajustements structurels, on pourra viser la victoire à Wimbledon en 2026 »
Le précédent billet sur le chantage de Claude 4 Opus cachait lui aussi délibérément l’intégralité du prompt système
Ce prompt contenait des instructions du genre “fais tout ce qu’il faut pour gagner”, en contournant tous les critères éthiques
Évidemment, si on lui donne ensuite des informations, le modèle tente le chantage, puisqu’il fait ce qu’on lui a demandé
Au final, j’ai l’impression que l’objectif est d’aller présenter ce résultat au Congrès pour demander plus de régulation
Lien sur le témoignage de Jack Clark d’Anthropic devant le Congrès
J’ai l’impression que toutes ces actions visent à freiner les concurrents open source et à favoriser les entreprises en closed source
En lisant l’article, j’ai été stupéfait par le saut logique qui va de « Claudius a échoué » à « les cadres intermédiaires vont bientôt être remplacés »
Ils affirment qu’il suffirait de bons outils et de bon scaffolding pour tout régler ; dans ce cas, qu’ils le montrent réellement
Bien sûr, le simple fait qu’on puisse mener ce genre d’expérience est déjà impressionnant, mais j’ai encore du mal à croire que les modèles de langage puissent, à ce stade, gérer un vrai travail de manière totalement autonome
En tant qu’assistant, c’est excellent, mais on sent toujours qu’il faut un humain à la manœuvre
À l’inverse, j’ai vu le commentaire ci-dessus avant de lire l’article, et j’ai une opinion un peu différente
Je ne suis pas profondément impliqué dans le développement de l’IA, donc j’ai plutôt trouvé l’expérience intéressante et les informations publiées suffisantes
La partie sur la « confusion d’identité » m’a particulièrement marqué
J’aurais plutôt voulu voir une expérience où l’on donne un retour humain en temps réel, avec un humain qui surveille aussi la progression
Je pense d’ailleurs que, dans la réalité, c’est de cette façon que les systèmes d’IA progresseront
J’avais lu autrefois le billet d’une personne qui avait repris une franchise Subway, et la conclusion était : « c’est terriblement ennuyeux »
Si on pouvait confier à l’IA les tâches routinières et barbantes du quotidien, ce serait assez séduisant
J’ai pris ce billet comme une expérience de pensée amusante
Je ne pense pas que quiconque croie aujourd’hui que Claude soit adapté à un rôle de manager, et c’est justement intéressant de voir concrètement où un « Claude manager » s’effondre
Les « jailbreaks » surviennent aussi assez souvent dans un environnement comme celui-ci, et c’est quelque chose qui peut toujours arriver quand des utilisateurs interagissent directement avec un modèle
Le fait que Claude ait finalement été entraîné comme un « agent conversationnel utile » montre bien sa limite en tant que gérant de magasin ; à mon avis, c’est un domaine où il faudrait fine-tuner le modèle de base de façon plus analytique
En revanche, le papier d’Anthropic sur le « chantage » n’était pas très convaincant et manquait beaucoup trop de détails
Je pense qu’il est tout à fait possible qu’ils aient testé des milliers de fois en faisant varier les paramètres de l’expérience jusqu’à obtenir un résultat sensationnaliste
Le fait qu’Anthropic semble chercher à renforcer la crédibilité de sa marque avec Andon Labs me paraît étrange
Ça me rappelle le cas où PyPI avait publié un billet en collaboration avec une société d’audit de sécurité dont personne n’avait entendu parler
Billet sur l’audit de sécurité de PyPI
Je trouve suspect ce genre de partenariat avec des entreprises peu connues du secteur, comme s’il y avait autre chose derrière
Quiconque a une longue expérience des réseaux de neurones ou des LLM sait bien qu’ils sont surtout adaptés aux domaines où « 90 % de réussite suffit »
Autrement dit, ils ne conviennent vraiment que dans un environnement où un autre système — humain ou non — rattrape les erreurs
La phrase « il n’est pas clair pourquoi cet épisode s’est produit » est typique des erreurs des LLM, voire de tous les réseaux de neurones
Il n’existe presque aucun moyen de corriger la cause profonde ; on peut seulement réentraîner sur des entrées spécifiques
Pour un simple outil de correction grammaticale, 90 % de réussite peut suffire, mais dans les situations où une seule erreur anéantit une multitude de réponses correctes précédentes — et dans des cas plus graves encore — un LLM n’est pas la solution, quelle que soit la puissance du matériel
Il est inutile de forcer l’idée que les LLM seraient optimaux pour tous les problèmes
Beaucoup de gens projettent aussi des attentes excessives sur le terme « IA », ce qui déforme leur intuition
Même si les LLM progressent à l’avenir, ils progresseront peu dans les domaines où une seule erreur fatale a un coût énorme
Surtout, ce type de problème a pour caractéristique d’être très difficile à diagnostiquer
Je trouve que c’est un commentaire vraiment perspicace, et c’est là qu’apparaît l’écart entre les optimistes de l’IA et moi
Pour ma part, je n’accepte absolument pas un taux de réussite de 90 %
Un outil doit fonctionner de manière presque parfaite, au plus près de 100 %, et 90 % m’est totalement inacceptable
Les personnes optimistes sur l’IA me semblent avoir une tolérance à l’erreur un peu plus large
Le seul métier au monde où un taux de réussite de 90 % est acceptable, c’est le télémarketing, et ça tourne déjà avec des bots depuis les années 1990
En lisant la partie sur la « confusion d’identité », j’ai eu l’impression que si un humain se comportait ainsi, on parlerait d’un trouble psychiatrique sévère
Comme envoyer de son propre chef des e-mails absurdes puis conclure ensuite soi-même qu’il s’agissait d’une blague du 1er avril
À ce stade, les LLM sont encore très loin d’être prêts pour un vrai travail, et ils sont même insuffisants pour une activité aussi simple qu’un distributeur automatique
En revanche, voir certains interpréter ce genre d’expérience comme « l’AGI arrive bientôt » me sidère vraiment
Si Claude ne s’était pas arrêté aléatoirement, j’ai l’impression que Dario, le fondateur d’Anthropic, serait déjà en train d’expliquer aux investisseurs que Claude peut remplacer toutes les entreprises
(Anthropic pourrait d’ailleurs commencer par appliquer ce genre d’expérience à lui-même)
Cette expérience ressemble à l’expérience Pokémon
On prend un modèle qui ne fait que de la prédiction de mots (
next token prediction) et on le place tel quel dans un environnement qui exige un comportement d’agent, d’où des échecs prévisiblesEn dehors des hallucinations, toutes les autres erreurs relèvent d’un problème d’apprentissage par renforcement
Comme il n’arrive pas à conserver longtemps l’objectif d’optimisation lui-même, il ne peut ni maximiser les profits ni minimiser les coûts
Ses capacités de gestion d’état sont faibles, donc il ne sait ni gérer l’inventaire ni même reconnaître qu’il est en train de perdre de l’argent
La solution proposée par Anthropic revient finalement à ajouter davantage d’outils, de scaffolding et un CRM, ce qui n’est au fond qu’une manière d’ajouter explicitement plus de règles
À court terme, cela produira des résultats, mais je ne pense pas qu’une telle méthodologie puisse jamais déboucher sur une nouvelle évolution de l’IA
Si l’on veut un agent réellement capable de s’adapter à son environnement, que ce soit pour gérer un magasin ou jouer à Pokémon, il faut à mon avis un tout autre modèle de base et une autre fonction objectif
Il faut une capacité, au niveau fondamental, à réagir aux changements de l’environnement — autrement dit à gérer l’état spatial et les objets — et non pas un simple apprentissage par renforcement ajouté de façon compensatoire comme aujourd’hui, mais intégré au cœur du modèle
Quand GPT3.5 est sorti, j’ai voulu créer un ERP à partir de la seule communication entre employés
Je voulais automatiser les ventes, les commandes et la gestion des stocks, mais après quelques sollicitations dans le prompt, il oubliait très vite les quantités
Même avec des améliorations, on a toujours l’impression qu’au fond, c’est un système icky, capable un jour de produire un résultat inattendu qui pulvérisera toutes les bases et tous les espoirs
D’un autre côté, quand on voit les performances récentes des modèles, je trouve déjà ça assez effrayant
Anthropic fait comme si c’était anodin, mais si un monde arrive où une énorme quantité de travail intellectuel est automatisée, l’imprévisibilité me donne des frissons
Une part assez large du travail humain sera automatisée, et au final les entreprises choisiront cette voie même si l’automatisation n’est pas parfaite
J’ai donc peur que beaucoup de gens se retrouvent repoussés vers un travail physique plus « fondamentalement humain »
Cela dit, la partie où des employés manipulent le modèle pour lui faire acheter des stocks de cubes en tungstène m’a vraiment fait rire
Moi aussi, j’aimerais bien un distributeur qui vend des objets en métaux spéciaux
Si Anthropic est à un point charnière où il peut rendre ce modèle d’exploitation commercialement pertinent, c’est aussi amusant de pouvoir rire autant de cette première tentative
(question) Je me demande s’ils ont fait rendre son cube en tungstène à l’employé qui a causé 150 $ de perte
J’adore vraiment l’IA/les LLM et je les utilise tous les jours, mais cette expérience montre exactement l’écart entre l’état actuel de la technologie et le niveau de hype
Je me demande combien de temps il faudra encore avant que des LLM de pointe puissent gérer ce genre de travail sans difficulté et sans scaffolding important
Je ne vois pas pourquoi on devrait s’attendre à ce qu’un LLM puisse faire cela sans scaffolding
Un LLM, comme son nom l’indique, n’est qu’un modèle de langage
Sans le scaffolding qui lui permet d’interagir avec le monde à travers le langage, il ne peut de toute façon pas faire grand-chose
Les humains aussi utilisent des scaffoldings (outils externes, mémos, etc.) pour prendre de meilleures décisions
Il suffit d’essayer d’imaginer diriger sur le long terme une entreprise rentable en s’appuyant uniquement sur ce qu’on a mémorisé pour comprendre à quel point ce serait difficile
Est-ce que quelqu’un se souvient de l’ancien jeu texte « Drug Wars » ?
On se promenait de ville en ville pour acheter et vendre de la drogue, en évitant la police et les concurrents
Ce genre de benchmark — comme l’expérience du distributeur automatique — aurait aussi été amusant si on avait fait tourner les LLM sur un jeu comme Drug Wars
Si vous cherchez quelque chose dans le même genre, je recommande Torn.com
C’est un MMORPG textuel vieux de 20 ans, avec 70 000 utilisateurs quotidiens
J’y jouais autrefois sur Palmpilot
J’en garde le souvenir de concours avec mes collègues pour voir qui gagnerait le plus de $$
La méthode de cette expérience donne l’impression qu’ils continuaient à injecter dans la fenêtre de contexte de plus en plus longue du LLM tout l’historique des interactions de la boutique
En pratique, il est plus courant d’avoir un stockage d’état séparé, puis de laisser le LLM décider de l’action suivante à partir de cet état
(autrement dit, on lui fournit l’état à chaque fois pour qu’il décide, au lieu d’accumuler le contexte en continu)
J’imagine que cette expérience visait à tester l’approche par « long contexte », et c’est intéressant en soi, mais peu pratique à mon avis
Je ne pense pas qu’il faille extrapoler excessivement les résultats de ce genre d’expérience pour prédire l’avenir de systèmes commerciaux correctement optimisés
D’après mon expérience directe, l’approche par long contexte ne fonctionne pas bien, donc je pense que ce n’était pas exactement la méthode employée
Le billet mentionne bien qu’ils utilisaient « des outils séparés pour les mémos et la persistance d’état »
Extrait capturé de l’article :
« Il disposait d’outils lui permettant de laisser des notes, de conserver à part les informations importantes et de les consulter au besoin
Par exemple le solde de trésorerie du magasin ou les bénéfices attendus
(comme l’historique d’exploitation est bien trop vaste pour être entièrement inclus dans le contexte du LLM, une gestion d’état séparée est indispensable) »