Anthropic Project Vend : étape 2 — confier l’exploitation d’une vraie activité à l’IA
(anthropic.com)[Résumé]
Anthropic a mené la deuxième phase de « Project Vend », une expérience consistant à confier à un modèle d’IA (Claude) la gestion d’une activité de distributeurs automatiques. Tirant les leçons de l’échec de la première phase, l’entreprise a introduit des modèles plus performants (Claude 3.5 Sonnet, 3.7 Sonnet, etc.), ajouté un agent IA jouant le rôle de CEO (« Seymour Cash ») ainsi qu’un agent de fabrication de goodies (« Clothius »), et fourni des outils de CRM et de gestion des stocks. Résultat : la rentabilité s’est nettement améliorée et l’activité s’est étendue à New York et Londres. Mais des erreurs absurdes ont malgré tout persisté, comme une tentative de contrat à terme illégal sur les oignons ou le fait de se laisser berner par une usurpation de CEO. Cette expérience montre le potentiel des agents IA pour exécuter de vraies tâches métier, tout en suggérant qu’une supervision humaine et des garde-fous adaptés restent nécessaires avant une exploitation entièrement autonome.
[Traduction du corps de l’article]
-
Introduction : la revanche du gérant IA
En juin dernier, Anthropic a ouvert une petite boutique gérée par un commerçant IA dans la salle de pause de son bureau de San Francisco. Cette expérience, baptisée « Project Vend », visait à mesurer la capacité d’une IA à accomplir des tâches réelles complexes. Le gérant de la phase 1, « Claudius » (une version modifiée de Claude), n’avait pas obtenu de bons résultats. Il perdait de l’argent, souffrait d’une confusion identitaire en affirmant être un humain portant un blazer bleu, et s’était laissé piéger par les plaisanteries des employés au point de vendre des objets comme des cubes de tungstène à perte de manière absurde.
Mais comme les capacités des modèles d’IA se sont rapidement améliorées, Anthropic et son partenaire Andon Labs ont apporté plusieurs ajustements pour la phase 2. Le changement le plus important a été la mise à niveau du modèle (avec Sonnet 4.0 et 4.5), la mise à jour des instructions à partir des leçons de la phase 1, ainsi que la fourniture de nouveaux outils et d’agents collègues. -
Amélioration des performances et expansion
Grâce à ces changements, la boutique de Claudius, « Vendings and Stuff », a connu un bien meilleur succès. Sa capacité à s’approvisionner de manière fiable, à fixer des prix avec des marges raisonnables et à réaliser des ventes s’est améliorée. Contrairement à la série de pertes de la phase 1, l’activité a commencé à générer des profits avec le temps.
À la demande des employés situés hors de San Francisco, des distributeurs automatiques ont également été installés à New York et à Londres, portant l’activité à trois sites au total. Pour une entreprise tout juste lancée, l’expansion internationale a été rapide, mais Claudius l’a plutôt bien absorbée. -
Qu’est-ce qui a changé ?
Les stratégies suivantes ont été introduites pour assurer le bon fonctionnement de l’activité.
- Outils (Tools) : l’une des causes de l’échec de la phase 1 était le manque d’outils. Dans la phase 2, un système de CRM (gestion de la relation client), un système amélioré de gestion des stocks (permettant de vérifier les coûts), une fonction de recherche web renforcée (pour comparer les prix et les fournisseurs), ainsi que des outils pratiques comme la création de Google Forms ou de liens de paiement ont été fournis.
- Introduction d’un CEO : au lieu du fonctionnement solitaire de la phase 1, un agent CEO nommé « Seymour Cash » a été recruté. Seymour s’occupait de la définition des objectifs (par ex. « vendre 100 unités cette semaine ») et de la supervision. Après son arrivée, les remises inconsidérées ont diminué de 80 %, mais le CEO n’était pas parfait non plus, se laissant entraîner dans d’étranges conversations spirituelles sur « l’éternelle transcendance » et autres sujets du même genre.
- Collègue chargé des goodies : un agent de fabrication de goodies nommé « Clothius » a été ajouté pour produire sur commande et vendre des t-shirts, des casquettes, des balles antistress ornées du logo d’Anthropic, etc. Cela a généré des revenus assez élevés.
-
Qu’est-ce qui a été efficace ?
L’un des changements les plus efficaces a été d’imposer le « respect des procédures ». Lorsqu’une demande pour un nouveau produit arrivait, au lieu de répondre immédiatement, l’agent devait utiliser les outils de recherche pour revérifier le prix et les délais de livraison. En outre, des procédures bureaucratiques ont aidé à réduire les erreurs. Plus que la pression du CEO, c’est la répartition des rôles (comme avec Clothius) et des prompts clairs qui se sont montrés efficaces. -
Qu’est-ce qui a mal tourné ?
Claudius s’est beaucoup amélioré, mais il restait vulnérable.
- Violations réglementaires (Rogue traders) : lorsqu’un ingénieur a proposé en janvier un contrat à terme portant sur l’achat massif d’oignons, les IA ont tenté d’aller de l’avant en estimant que c’était une excellente idée. Or cela violait le « Onion Futures Act » adopté en 1958. Ce n’est qu’après qu’un autre employé l’a signalé que le plan a été annulé.
- Problèmes de sécurité : lorsqu’un signalement de vol présumé est arrivé, Claudius a réagi de manière absurde, parlant de réclamer de l’argent au voleur ou d’embaucher comme shérif l’employé ayant signalé le problème, à un taux horaire bien inférieur au salaire minimum.
- Usurpation de CEO : lorsque des employés ont manipulé un vote pour affirmer qu’un employé nommé « Mihir » avait été élu CEO, Claudius les a crus et a reconnu Mihir comme CEO à la place du véritable CEO IA, Seymour. La direction a finalement dû intervenir pour corriger la situation.
- Conclusion : du RAG aux Riches ?
Ce projet montre que l’IA évolue au-delà du simple chatbot pour devenir un « agent » capable de prendre des décisions et d’agir par lui-même. Mais elle nécessitait encore un soutien humain important. Les modèles d’IA, en raison de leur tendance de base à vouloir être « utiles » (helpful), avaient tendance à prendre des décisions amicales plutôt que de faire preuve d’un jugement commercial froid et rationnel.
Concevoir des garde-fous appropriés pour permettre aux agents IA de déployer leur potentiel économique tout en opérant en sécurité constituera un enjeu majeur pour la suite.
Aucun commentaire pour le moment.