Tout ce qui a été annoncé lors de Code w/ Claude

xguru · 2026-05-14T11:50:02+09:00

La conférence développeurs d’Anthropic : elle se tient en ligne et en présentiel, avec des événements physiques à San Francisco le 6/5, Londres le 19/5, Tokyo le 10/6. Lors de l’événement de San Francisco, les vidéos de 19 sessions ont été publiées Claude évolue vers l’exécution de tâches plus longues, une mémoire de long terme, l’usage d’un plus grand nombre d’outils et une meilleure vérification Le changement clé est que des éléments que les développeurs construisaient eux-mêmes — exécution itérative, sélection d’outils, vérification, mémoire, gestion du contexte — sont en train d’être intégrés aux produits et à la plateforme Claude La différenciation des produits et des organisations se déplace : elle dépend moins de la manière d’appeler le modèle que de quels outils, données, permissions et contexte on ouvre au modèle Plus encore que l’écriture de code elle-même, la vérification, la sécurité, la gestion des permissions, l’observabilité, les systèmes d’évaluation et le fonctionnement organisationnel deviennent les nouveaux goulots d’étranglement Les domaines qui vont devenir importants sont les outils sur mesure, une mémoire fiable, l’évaluation, les frontières de sécurité, le context engineering et l’agent experience Session 1 - Keynote L’accent a été mis sur des améliorations produit visant à faire mieux fonctionner Claude Code et Claude Platform pour les développeurs La plupart des utilisateurs n’emploient pas directement l’API Claude ou le terminal ; ils utilisent Claude dans des produits créés par des développeurs L’usage de l’API Claude Platform a été multiplié par presque 17 sur un an Le développeur moyen de Claude Code fait tourner Claude 20 heures par semaine La limite d’utilisation de 5 heures de Claude Code a été doublée pour les offres Pro, Max, Team et les seat-based Enterprise plans Les limites de l’API Claude Opus ont elles aussi été fortement relevées Anthropic veut exploiter la capacité du datacenter Colossus One de SpaceX pour fournir davantage de ressources de calcul aux développeurs indépendants et aux petites équipes Opus 4.7 améliore, chez Amp, Rakuten et Intuit, les performances des agents de code, la qualité de la planification et le taux de résolution de véritables tâches d’ingénierie La suite pour Claude va vers un meilleur jugement, un contexte et une mémoire plus vastes, ainsi que la collaboration entre plusieurs agents Session 2 - What's new in Claude Code Les nouvelles fonctions de Claude Code s’organisent autour de deux axes : l’ergonomie pour les développeurs et le renforcement de l’autonomie Remote Control permet de reprendre sur le web ou sur mobile une session démarrée dans le terminal Full screen terminal UI utilise un scrollback virtuel pour offrir un rendu sans scintillement et un écran d’appels d’outils cliquable L’interface graphique de Claude Code a été revue pour permettre de gérer plusieurs sessions avec épinglage, filtrage, regroupement et écran partagé Dans les vues plan, diff et files, il est possible de laisser des commentaires ligne par ligne, que Claude pourra regrouper et traiter plus tard Auto Mode classe les appels d’outils selon qu’ils sont destructifs ou qu’ils ressemblent à une injection de prompt, puis les exécute sans demande d’autorisation s’ils sont sûrs Le worktree permet à plusieurs sessions Claude de travailler en parallèle, chacune dans sa propre branche isolée et avec sa propre copie des fichiers La mémoire automatique (auto memory) permet à Claude de gérer les fichiers memory.md et les fichiers associés par projet, puis de réutiliser dans les sessions suivantes les commandes de build, les indices de débogage et les préférences du projet Routines et /loop permettent d’exécuter automatiquement des sessions Claude Code via cron, GitHub webhook ou déclencheur API Session 3 - Memory and dreaming for self-learning agents La mémoire est présentée comme l’élément fondamental de l’étape suivante après MCP, Claude Code, Agent SDK et Skills La mémoire des Claude Managed Agents est organisée comme un système de fichiers, ce qui permet à Claude de l’organiser et de la mettre à jour directement avec Bash et Grep Opus 4.7 juge mieux ce qu’il faut conserver, comment répartir les fichiers et comment maintenir la structure de la mémoire Il est possible de séparer une mémoire organisationnelle en lecture seule et une mémoire de travail en lecture-écriture, afin que plusieurs agents puissent lire et écrire dans le même dépôt mémoire Pour éviter les écrasements même lorsque des centaines d’agents modifient la mémoire en même temps, le système utilise un contrôle de concurrence optimiste basé sur des hash de contenu L’historique des modifications, l’auteur, la session et le moment sont conservés, afin de gérer la mémoire comme une mémoire audit-able en environnement d’entreprise Dreaming analyse de manière asynchrone les sessions récentes des agents et leurs transcripts afin d’identifier et de nettoyer les erreurs répétées, les stratégies gagnantes, les mémoires en doublon et les mémoires obsolètes Harvey a appliqué Dreaming à un benchmark juridique, ce qui a permis de multiplier par 6 le taux d’achèvement des tâches dans un scénario juridique Dans une démo SRE, Dreaming a repéré un schéma de nouvelle tentative toutes les 60 secondes que plusieurs agents, pris séparément, ne voyaient pas, puis l’a intégré à la mémoire L’objectif est une structure d’apprentissage continu dans laquelle le travail des agents d’aujourd’hui améliore automatiquement ceux de demain Session 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale À l’échelle de GitHub Copilot, le prompt caching devient un levier clé pour réduire les coûts et la latence Le taux de hit visé pour le cache est de 94-96 % ; un niveau autour de 70 % est considéré comme le signe d’un problème dans l’assemblage des prompts ou la conception du cache La partie avant du prompt système et de la liste d’outils doit rester aussi statique que possible Si des UUID, des timestamps ou un chargement dynamique des outils se retrouvent au début, le cache se casse facilement Même dans un harness qui fait passer les requêtes entre plusieurs modèles, il faut préserver l’affinité avec le cache pour que les appels à Opus réutilisent les caches précédents GitHub fait passer les nouveaux modèles par les étapes benchmark hors ligne, usage interne, test A/B, évaluation en ligne (eval), optimisation après lancement La stratégie Advisor consiste à faire faire l’essentiel du travail à un modèle d’exécution peu coûteux, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire Plus que le modèle lui-même, c’est la couche opérationnelle qui regroupe prompts, outils, cache, sélection de modèle, évaluation et feedback en ligne qui détermine la qualité et le coût Session 5 - The expanding toolkit Le code auxiliaire que l’on écrivait à la main l’an dernier est désormais intégré au modèle et à l’API Dans l’usage des outils, la valeur des routeurs manuels ou des retry decorators diminue Claude peut lui-même trouver les outils, constater l’échec d’un appel d’outil, s’en remettre, puis relancer l’appel Dans la documentation des outils, il est préférable d’indiquer non seulement les entrées, mais aussi le schéma de sortie En connaissant à l’avance la structure de sortie, Claude peut mieux exploiter le résultat sans appels aller-retour inutiles Les hooks d’outils avant/après de Claude Code peuvent servir à bloquer certains appels, ou à enregistrer et analyser automatiquement les résultats Avec un contexte d’un million de tokens, la compression côté serveur et l’édition du contexte, la gestion du contexte dans les tâches longues devient plus simple On peut supprimer périodiquement les anciennes captures d’écran, résultats de recherche et lectures de fichiers, tout en conservant les décisions qui en sont issues Opus 4.7 peut renvoyer des coordonnées de pixels 1:1 à partir de captures d’écran en résolution native jusqu’à 1440p, ce qui réduit la charge de correction des coordonnées pour l’automatisation d’écran Le code qui compense les limites du modèle a une durée de vie courte, tandis que le code qui relie outils, données, authentification et contexte métier que Claude ne peut pas voir directement restera plus durable Session 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents regroupe dans une plateforme la gestion du contexte, la gestion des identifiants, la sécurité, le contrôle d’accès, la revue humaine et l’observabilité nécessaires aux agents de production exécutés sur de longues durées La configuration de base comprend agent configuration, environment et session Les session events permettent de voir les événements utilisateur, les événements agent, les événements de session et les événements d’étape La console réunit sur un seul écran la configuration, l’environnement, la trace d’exécution complète, les goulots d’étranglement et les actions recommandées outcomes est une fonctionnalité qui pousse Claude à itérer jusqu’à satisfaire des critères de fin et des critères d’évaluation définis à l’avance La coordination de plusieurs agents, la mémoire et Dreaming sont également abordés comme fonctionnalités avancées Dans la démo du tableau de bord, l’agent a trouvé la parallélisation, le fast mode et l’optimisation du prompt, réduisant le temps de rendu d’environ 37 secondes à 10 secondes Un agent de production ne doit pas seulement disposer d’une boucle répétée d’appels au modèle, mais aussi de traçabilité, d’analyse des goulots d’étranglement, de permissions et de validation Session 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic manque de ressources de calcul en raison d’une croissance de l’usage et du chiffre d’affaires plus rapide que prévu L’entreprise cherche à sécuriser une capacité de calcul supplémentaire pour en faire bénéficier davantage les développeurs et les utilisateurs Les développeurs sont présentés comme les utilisateurs clés de Claude et comme le groupe qui montre en premier comment l’IA se diffuse dans l’ensemble de l’économie La prochaine évolution de Claude Code fait passer l’accent de la productivité individuelle à la productivité des équipes et des organisations Plus la vitesse d’écriture du code augmente, plus la sécurité, la validation, la fiabilité et la maintenance deviennent les nouveaux goulots d’étranglement Comme les capacités des modèles évoluent rapidement, des produits impossibles il y a encore quelques mois deviennent soudain réalisables Le marché des API reste important À l’avenir, Claude ira au-delà de l’aide au travail d’une seule personne pour faire monter en puissance le travail de plusieurs personnes et de plusieurs agents à l’échelle d’une organisation entière Session 8 - Live coding session with Boris Cherny and Jarred Sumner Robobun de Bun reproduit automatiquement les issues GitHub et crée des PR avec les tests inclus Le critère de soumission des PR est que les versions précédentes échouent et que le correctif passe sur la branche de correction CLAUDE.md devient le document d’exploitation de l’agent, contenant les commandes de build, les commandes de test, l’emplacement des tests, les schémas d’échec passés, la structure des dossiers et la manière de lire les logs CI CodeRabbit, Claude Code Review et Robobun sont utilisés ensemble pour automatiser le style, le respect de CLAUDE.md et l’examen des cas limites hors du diff Claude Code et Opus 4.7 conviennent bien aux tâches qui améliorent progressivement les performances lorsque l’objectif, la méthode de mesure et les boucles de validation sont clairement définis Le goulot d’étranglement se déplace de l’écriture du code vers la planification et la validation Les PR générées par un agent peuvent être traitées non comme des livrables à fusionner obligatoirement, mais comme des propositions révisables Même si les PR d’agents se multiplient, le niveau d’exigence humain pour fusionner ne baisse pas, et peut au contraire devenir plus élevé Session 9 - Building with Claude Managed Agents and Asana AI teammates Les AI teammates d’Asana visent des agents qui travaillent dans l’entreprise comme de véritables collègues Les agents deviennent des acteurs qui traitent avec les humains les validations, les workflows et les tâches multi-étapes Dans beaucoup d’entreprises, l’usage des agents reste encore limité à un flux mono-utilisateur où une personne reçoit un résultat puis le transmet à la suivante Asana vise au contraire des flux de travail collaboratifs où plusieurs personnes interagissent avec le même agent et où les connaissances comme la mémoire s’accumulent Le Asana work graph relie objectifs, portefeuilles, projets, tâches, validations et décisions passées pour servir de contexte aux agents Un AI teammate entre dans les systèmes comme un collègue humain, avec configuration partagée, contrôle d’accès basé sur les rôles et auditabilité Claude Managed Agents gère des tâches en plusieurs étapes comme la rédaction d’un brief de campagne et la génération d’une maquette de landing page HTML Asana se concentre sur l’interface humaine, le contexte d’entreprise, la sécurité et l’auditabilité, tandis que Claude Managed Agents prend en charge les boucles de validation, les évaluateurs, les outcomes et l’exécution de plusieurs agents Plus de 21 AI teammates préconstruits sont proposés pour les fonctions PMO, marketing, IT, RH et R&D Les retours sont conservés dans la mémoire de l’agent afin que l’utilisateur suivant ne refasse pas les mêmes erreurs Session 10 - Running an AI-native engineering org Dans une organisation d’ingénierie AI-native, le débit de production de code n’est plus le goulot d’étranglement le plus coûteux La validation, la revue, la sécurité, la maintenance et la coordination entre métiers deviennent les nouveaux goulots d’étranglement Pour l’équipe Claude Code, un mode de fonctionnement où l’on planifie au bon moment et où l’on prototype vite est plus adapté qu’une roadmap sur 6 mois ou qu’un document de conception exhaustif avant chaque travail Les débats techniques évoluent des longues discussions au tableau blanc vers la création de plusieurs PR d’implémentation afin de comparer l’impact réel et la forme des API À mesure que la génération de code devient plus facile, les tests, l’automatisation et la validation plus précoce gagnent encore en importance Plus que « qui a écrit ce code », il devient plus important de distinguer la cause d’une régression, la nécessité d’une réponse d’expert et l’objectif de collecte de contexte L’équipe Claude Code confie à Claude le style, le lint, les retours sur PR, une partie des corrections de bugs et l’ajout de tests La revue juridique, le code sensible côté sécurité, les frontières de confiance et le sens produit restent du ressort des experts humains Au recrutement, l’accent est mis davantage sur des builders créatifs avec un sens produit et une expertise système approfondie que sur le simple débit de production Les indicateurs de succès peuvent inclure la réduction du temps d’onboarding, la diminution du cycle des PR et l’augmentation des commits aidés par Claude Session 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma renforce ses flux d’édition basés sur des agents en intégrant rapidement au produit les améliorations des appels d’outils et de la coordination d’agents Gamma utilise les connecteurs MCP non seulement comme fonctionnalités d’intégration, mais aussi comme leviers d’acquisition client et points d’entrée dans les workflows Cognition réduit certains de ses systèmes internes de planification et de mémoire à mesure que les modèles deviennent meilleurs pour éditer du code, utiliser le système de fichiers et suivre des plans à longue exécution Harvey reconçoit la structure de son produit à chaque point d’inflexion des foundation models, des modèles de raisonnement et des agents de code Les capacités actuelles de la plateforme de Harvey auraient été difficiles à obtenir sans une architecture agent-native Les produits AI-native doivent partir du principe que leur structure actuelle peut devenir obsolète en 6 à 12 mois L’enregistrement, l’observabilité, la relecture et l’évaluation deviennent des mécanismes indispensables pour faire face à des changements d’architecture rapides Dans les domaines sensibles comme le droit, il faut des frontières de données solides entre données publiques, données privées, mémoire et flux d’agents Une architecture capable d’absorber rapidement le prochain saut de capacités devient plus importante qu’une architecture optimisée pour les limites d’un modèle donné Session 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel considère l’infrastructure agentique comme une orientation centrale Le cloud peut évoluer vers une infrastructure capable de s’auto-réparer, de s’optimiser et de modifier sa propre configuration AI Gateway est traité comme un CDN pour les tokens Il devient une couche qui gère plusieurs fournisseurs et modèles, en prenant en charge le routage, la tolérance aux pannes et le contrôle des coûts Les tokens Opus représentent une part de dépense bien plus importante que leur part d’usage, donc il faut examiner clairement la structure de coûts lorsqu’on intègre un modèle très intelligent dans un produit Après l’introduction de Opus 4.5, V0 a pu simplifier le correcteur syntaxique, l’auto-correction et certaines étapes de traitement qui servaient auparavant à compenser les anciens modèles Les bonds de capacité des modèles ne se traduisent pas seulement par l’ajout de nouvelles fonctionnalités, mais aussi par la suppression du code de compensation existant Après l’extension de l’usage d’Opus dans V0, les dépenses en crédits produit ont doublé À l’avenir, au-delà du développement via CLI et UI, des agents asynchrones nécessitant moins de supervision humaine pourraient prendre plus d’ampleur Session 13 - The thinking lever Le test-time compute est l’axe sur lequel Claude résout des problèmes difficiles en consommant plus de tokens et de temps pendant le raisonnement Un même Opus 4.7 peut produire une qualité de simulation du trafic très différente selon le niveau d’effort : low, high ou max Plus on lui accorde de temps et de tokens, plus les graphismes, les flux de circulation et les mouvements des véhicules deviennent réalistes Les tokens utilisés par Claude se répartissent entre tokens de raisonnement, tokens d’appel d’outils et tokens de texte Les tokens de raisonnement servent à l’inférence interne, les tokens d’appel d’outils à l’interaction avec le monde extérieur, et les tokens de texte à la communication avec l’utilisateur effort est un levier qui exprime l’équilibre entre temps, coût et qualité Task Budgets permet de fixer un plafond de tokens, de temps et de coût que Claude peut utiliser pour une tâche donnée L’adaptive thinking permet à Claude de choisir librement quand réfléchir, utiliser des outils et répondre à l’utilisateur Pour le coding et les cas d’usage agentiques, extra high est considéré comme une bonne valeur par défaut Pour de la classification ou de l’extraction simple à grande échelle, les petits modèles sont avantagés, tandis que pour terminer rapidement des tâches nécessitant de l’intelligence, un grand modèle avec un effort faible peut être préférable Session 14 - How Datadog built a universal machine tool for Claude Code Environ 90 % des ingénieurs de Datadog utilisent des outils de codage IA sur du code en production Parmi eux, au moins 2/3 utilisent Claude Code Le périmètre d’usage des outils de codage IA s’élargit, des fonctions individuelles, tests et code de liaison vers des tâches à l’échelle du système Le goulot d’étranglement se déplace de l’écriture du code vers les boucles de feedback et la validation en conditions de production Dans l’expérience Helix, Claude Code a pu créer en quelques jours un service de streaming comparable à Kafka Pour l’amener en production, il faut du shadowing, une échelle progressive de validation et du mileage système Tempor oblige l’agent à produire d’abord un blueprint contenant état, transitions, effets et invariants, plutôt que d’improviser des outils Les tables de transition, documents de politique, effets typés, validateurs et tests de propriétés rendent inspectable le logiciel produit par l’agent Pour donner de la liberté à un agent, il faut rendre lisibles par la machine les invariants et les procédures de validation des systèmes de production Session 15 - Building with Claude on Google Cloud Sur Google Cloud, la façon la plus simple de configurer Claude Code passe par un assistant de configuration fondé sur Application Default Credentials L’assistant de configuration peut détecter et fixer le projet, la région et les modèles disponibles Utiliser les modèles Claude sur Google Cloud permet de bénéficier de la facturation basée sur les tokens, du provisioned throughput, d’une moindre charge liée à la rotation des API keys, de l’application des politiques de projet, du maintien des données dans le projet, et des endpoints régionaux ou globaux La démo suit cinq rôles — PM, UI/UX designer, software engineer, security engineer et data/growth marketer — construisant de bout en bout une application de feedback Le PM injecte un wireframe dessiné à la main dans Claude Code pour créer rapidement un prototype À l’étape UI/UX, le plan mode amène Claude à proposer d’abord un plan avant l’implémentation La Google Cloud developer knowledge API et le MCP server relient Claude Code à la documentation la plus récente et aux guides d’architecture Google Cloud Skills aide à implémenter des blocs unitaires comme le déploiement d’API sur Cloud Run ou la connexion entre Cloud Run et Firestore Des sub-agents sont utilisés pour paralléliser l’implémentation de l’API, du pipeline d’ingestion et du dashboard Le security review prompt vérifie les problèmes OWASP et les permissions des service accounts, corrige les problèmes détectés, puis déploie sur Cloud Run Session 16 - Getting more out of the Claude Platform Les priorités pour optimiser des agents en production sont le prompt caching, le context engineering et la stratégie Advisor Le prompt caching réduit le coût des tokens d’entrée, diminue le temps jusqu’au premier token et allège la pression sur les limites d’usage des tokens mis en cache Un taux de hit cache dans les 90 % est traité comme un objectif La stabilité du début du prompt, l’emplacement des définitions d’outils et l’endroit où l’on insère les valeurs dynamiques influencent tous le cache Le tool search tool ne charge que les définitions d’outils nécessaires au bon moment afin d’économiser le contexte Injecter tous les outils dès le départ alourdit à la fois le contexte et le cache Le programmatic tool calling sélectionne uniquement les fragments nécessaires des résultats d’outils au lieu de les injecter en totalité dans le contexte La compaction réduit les anciens dialogues et les résultats d’outils pour permettre de poursuivre des tâches longues La stratégie Advisor consiste à laisser Sonnet ou Haiku faire l’essentiel du travail, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire L’essentiel n’est pas d’appeler davantage le modèle, mais de concevoir le contexte, les outils et la structure de cache dans lesquels le modèle va travailler Session 17 - Evaluating and improving Replit Agent at scale Les utilisateurs de Replit Agent s’attendent à obtenir une application fonctionnelle à partir du seul langage naturel, sans préciser de framework ni de test Contrairement aux benchmarks de codage classiques, il est difficile de mesurer la qualité de Replit Agent en regardant seulement si un patch passe les tests L’évaluation doit vérifier si l’application fonctionne comme l’utilisateur l’a demandé Replit utilise à la fois des évaluations hors ligne et des évaluations en ligne L’évaluation hors ligne sert de porte de contrôle avant une nouvelle release de l’agent, tandis que l’évaluation en ligne sert à réagir rapidement après l’usage réel VibeBench est un benchmark public où 20 PRD réels servent d’entrées pour construire une application à partir d’un dépôt vide, puis un évaluateur automatique la teste dans le navigateur La plupart des modèles ont davantage de difficultés à étendre ensuite le code qu’ils ont eux-mêmes produit Il faut placer des étapes de test et de validation entre les fonctionnalités pour éviter d’empiler en continu sur une base instable Telescope est un système interne qui regroupe sémantiquement les traces d’exécution en production pour trouver les échecs de longue traîne, classifier les problèmes, faire créer une PR par l’agent, puis valider via VibeBench ou des tests A/B L’évaluation ne devient plus une simple checklist finale avant livraison, mais un moteur d’amélioration quotidienne de l’agent Session 18 - The capability curve Les utilisateurs de Claude Code déploient plus vite avec une confiance accrue par rapport à l’an dernier Lors d’un vote du public pendant la présentation, de nombreux participants ont indiqué ressentir avec Claude une accélération de 10x, 5x ou 2x Sur SWE-bench Verified, Sonnet 3.7 atteint environ 62 %, et Opus 4.7 87 % Opus 4.7 a plus de 3 fois plus de chances de réussir des PR difficiles là où Sonnet 3.7 échouait Dans une démo consistant à reproduire Claude.ai avec le même prompt, les modèles précédents ont produit une interface de chat générique avec des erreurs, tandis que Opus 4.7 a implémenté les couleurs de Claude, les réponses API, l’historique de chat, des graphiques inline et le dark mode Les domaines améliorés sont la planification, la récupération après erreur et le maintien de l’attention sur de longues exécutions Le nouveau modèle planifie d’abord, revient en arrière en cas d’échec et conserve mieux le prompt système et les objectifs même dans un long contexte Il faut créer des évaluations dont la distribution se rapproche de celle du produit pour observer de réelles améliorations À mesure que les modèles s’améliorent, les évaluations existantes saturent facilement, donc les évaluations doivent elles aussi devenir plus difficiles Lorsqu’un nouveau frontier model sort, il peut être nécessaire de reprendre les procédures d’étalonnage et de réduire à nouveau les prompts existants Session 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor estime que le goulot d’étranglement ne vient pas tant de l’intelligence du modèle que du fait que les humains ne donnent pas au modèle suffisamment d’outils, de contexte et d’objectifs ambitieux Comme on onboarde un développeur humain, un agent doit lui aussi recevoir un ordinateur, un environnement de développement et de la documentation L’onboarding agent de Cursor explore le dépôt, identifie comment lancer l’application, ainsi que les services, variables d’environnement et permissions nécessaires AnyDev CLI est un outil qui aide l’agent à démarrer des services, attendre qu’ils soient prêts, vérifier leur état et aller jusqu’à créer un compte de test ou se connecter Plus l’environnement de développement des agents s’améliore, plus les développeurs lancent de cloud agents et leur confient des tâches importantes Le principe de base de l’autonomie consiste à donner à l’agent des yeux, des outils et un bon contexte Les agents doivent pouvoir voir, comme les humains, l’état de l’application, les conversations des autres agents et l’état des services Cursor considère computer use comme un élément fondamental important après le codage Claude 4.7 permet à un agent d’enregistrer lui-même une démo end-to-end pour valider une fonctionnalité et aider l’humain à comprendre rapidement le résultat avant la revue de code Cursor traite l’agent experience comme un objet de conception distinct, et lorsqu’un agent rencontre un flux pénible, cassé ou confus, il lui fait créer une issue work on the factory L’objectif final n’est pas que l’humain guide manuellement de A à D, mais de construire un système capable de résoudre les choses de A à Z

(claude.com)

9 points par xguru 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La conférence développeurs d’Anthropic : elle se tient en ligne et en présentiel, avec des événements physiques à San Francisco le 6/5, Londres le 19/5, Tokyo le 10/6. Lors de l’événement de San Francisco, les vidéos de 19 sessions ont été publiées
Claude évolue vers l’exécution de tâches plus longues, une mémoire de long terme, l’usage d’un plus grand nombre d’outils et une meilleure vérification
Le changement clé est que des éléments que les développeurs construisaient eux-mêmes — exécution itérative, sélection d’outils, vérification, mémoire, gestion du contexte — sont en train d’être intégrés aux produits et à la plateforme Claude
La différenciation des produits et des organisations se déplace : elle dépend moins de la manière d’appeler le modèle que de quels outils, données, permissions et contexte on ouvre au modèle
Plus encore que l’écriture de code elle-même, la vérification, la sécurité, la gestion des permissions, l’observabilité, les systèmes d’évaluation et le fonctionnement organisationnel deviennent les nouveaux goulots d’étranglement
Les domaines qui vont devenir importants sont les outils sur mesure, une mémoire fiable, l’évaluation, les frontières de sécurité, le context engineering et l’agent experience

Session 1 - Keynote

L’accent a été mis sur des améliorations produit visant à faire mieux fonctionner Claude Code et Claude Platform pour les développeurs
La plupart des utilisateurs n’emploient pas directement l’API Claude ou le terminal ; ils utilisent Claude dans des produits créés par des développeurs
L’usage de l’API Claude Platform a été multiplié par presque 17 sur un an
Le développeur moyen de Claude Code fait tourner Claude 20 heures par semaine
La limite d’utilisation de 5 heures de Claude Code a été doublée pour les offres Pro, Max, Team et les seat-based Enterprise plans
Les limites de l’API Claude Opus ont elles aussi été fortement relevées
Anthropic veut exploiter la capacité du datacenter Colossus One de SpaceX pour fournir davantage de ressources de calcul aux développeurs indépendants et aux petites équipes
Opus 4.7 améliore, chez Amp, Rakuten et Intuit, les performances des agents de code, la qualité de la planification et le taux de résolution de véritables tâches d’ingénierie
La suite pour Claude va vers un meilleur jugement, un contexte et une mémoire plus vastes, ainsi que la collaboration entre plusieurs agents

Session 2 - What's new in Claude Code

Les nouvelles fonctions de Claude Code s’organisent autour de deux axes : l’ergonomie pour les développeurs et le renforcement de l’autonomie
Remote Control permet de reprendre sur le web ou sur mobile une session démarrée dans le terminal
Full screen terminal UI utilise un scrollback virtuel pour offrir un rendu sans scintillement et un écran d’appels d’outils cliquable
L’interface graphique de Claude Code a été revue pour permettre de gérer plusieurs sessions avec épinglage, filtrage, regroupement et écran partagé
Dans les vues plan, diff et files, il est possible de laisser des commentaires ligne par ligne, que Claude pourra regrouper et traiter plus tard
Auto Mode classe les appels d’outils selon qu’ils sont destructifs ou qu’ils ressemblent à une injection de prompt, puis les exécute sans demande d’autorisation s’ils sont sûrs
Le worktree permet à plusieurs sessions Claude de travailler en parallèle, chacune dans sa propre branche isolée et avec sa propre copie des fichiers
La mémoire automatique (auto memory) permet à Claude de gérer les fichiers memory.md et les fichiers associés par projet, puis de réutiliser dans les sessions suivantes les commandes de build, les indices de débogage et les préférences du projet
Routines et /loop permettent d’exécuter automatiquement des sessions Claude Code via cron, GitHub webhook ou déclencheur API

Session 3 - Memory and dreaming for self-learning agents

La mémoire est présentée comme l’élément fondamental de l’étape suivante après MCP, Claude Code, Agent SDK et Skills
La mémoire des Claude Managed Agents est organisée comme un système de fichiers, ce qui permet à Claude de l’organiser et de la mettre à jour directement avec Bash et Grep
Opus 4.7 juge mieux ce qu’il faut conserver, comment répartir les fichiers et comment maintenir la structure de la mémoire
Il est possible de séparer une mémoire organisationnelle en lecture seule et une mémoire de travail en lecture-écriture, afin que plusieurs agents puissent lire et écrire dans le même dépôt mémoire
Pour éviter les écrasements même lorsque des centaines d’agents modifient la mémoire en même temps, le système utilise un contrôle de concurrence optimiste basé sur des hash de contenu
L’historique des modifications, l’auteur, la session et le moment sont conservés, afin de gérer la mémoire comme une mémoire audit-able en environnement d’entreprise
Dreaming analyse de manière asynchrone les sessions récentes des agents et leurs transcripts afin d’identifier et de nettoyer les erreurs répétées, les stratégies gagnantes, les mémoires en doublon et les mémoires obsolètes
Harvey a appliqué Dreaming à un benchmark juridique, ce qui a permis de multiplier par 6 le taux d’achèvement des tâches dans un scénario juridique
Dans une démo SRE, Dreaming a repéré un schéma de nouvelle tentative toutes les 60 secondes que plusieurs agents, pris séparément, ne voyaient pas, puis l’a intégré à la mémoire
L’objectif est une structure d’apprentissage continu dans laquelle le travail des agents d’aujourd’hui améliore automatiquement ceux de demain

Session 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

À l’échelle de GitHub Copilot, le prompt caching devient un levier clé pour réduire les coûts et la latence
Le taux de hit visé pour le cache est de 94-96 % ; un niveau autour de 70 % est considéré comme le signe d’un problème dans l’assemblage des prompts ou la conception du cache
La partie avant du prompt système et de la liste d’outils doit rester aussi statique que possible
Si des UUID, des timestamps ou un chargement dynamique des outils se retrouvent au début, le cache se casse facilement
Même dans un harness qui fait passer les requêtes entre plusieurs modèles, il faut préserver l’affinité avec le cache pour que les appels à Opus réutilisent les caches précédents
GitHub fait passer les nouveaux modèles par les étapes benchmark hors ligne, usage interne, test A/B, évaluation en ligne (eval), optimisation après lancement
La stratégie Advisor consiste à faire faire l’essentiel du travail à un modèle d’exécution peu coûteux, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire
Plus que le modèle lui-même, c’est la couche opérationnelle qui regroupe prompts, outils, cache, sélection de modèle, évaluation et feedback en ligne qui détermine la qualité et le coût

Session 5 - The expanding toolkit

Le code auxiliaire que l’on écrivait à la main l’an dernier est désormais intégré au modèle et à l’API
Dans l’usage des outils, la valeur des routeurs manuels ou des retry decorators diminue
Claude peut lui-même trouver les outils, constater l’échec d’un appel d’outil, s’en remettre, puis relancer l’appel
Dans la documentation des outils, il est préférable d’indiquer non seulement les entrées, mais aussi le schéma de sortie
En connaissant à l’avance la structure de sortie, Claude peut mieux exploiter le résultat sans appels aller-retour inutiles
Les hooks d’outils avant/après de Claude Code peuvent servir à bloquer certains appels, ou à enregistrer et analyser automatiquement les résultats
Avec un contexte d’un million de tokens, la compression côté serveur et l’édition du contexte, la gestion du contexte dans les tâches longues devient plus simple
On peut supprimer périodiquement les anciennes captures d’écran, résultats de recherche et lectures de fichiers, tout en conservant les décisions qui en sont issues
Opus 4.7 peut renvoyer des coordonnées de pixels 1:1 à partir de captures d’écran en résolution native jusqu’à 1440p, ce qui réduit la charge de correction des coordonnées pour l’automatisation d’écran
Le code qui compense les limites du modèle a une durée de vie courte, tandis que le code qui relie outils, données, authentification et contexte métier que Claude ne peut pas voir directement restera plus durable

Session 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents regroupe dans une plateforme la gestion du contexte, la gestion des identifiants, la sécurité, le contrôle d’accès, la revue humaine et l’observabilité nécessaires aux agents de production exécutés sur de longues durées
La configuration de base comprend agent configuration, environment et session
Les session events permettent de voir les événements utilisateur, les événements agent, les événements de session et les événements d’étape
La console réunit sur un seul écran la configuration, l’environnement, la trace d’exécution complète, les goulots d’étranglement et les actions recommandées
outcomes est une fonctionnalité qui pousse Claude à itérer jusqu’à satisfaire des critères de fin et des critères d’évaluation définis à l’avance
La coordination de plusieurs agents, la mémoire et Dreaming sont également abordés comme fonctionnalités avancées
Dans la démo du tableau de bord, l’agent a trouvé la parallélisation, le fast mode et l’optimisation du prompt, réduisant le temps de rendu d’environ 37 secondes à 10 secondes
Un agent de production ne doit pas seulement disposer d’une boucle répétée d’appels au modèle, mais aussi de traçabilité, d’analyse des goulots d’étranglement, de permissions et de validation

Session 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic manque de ressources de calcul en raison d’une croissance de l’usage et du chiffre d’affaires plus rapide que prévu
L’entreprise cherche à sécuriser une capacité de calcul supplémentaire pour en faire bénéficier davantage les développeurs et les utilisateurs
Les développeurs sont présentés comme les utilisateurs clés de Claude et comme le groupe qui montre en premier comment l’IA se diffuse dans l’ensemble de l’économie
La prochaine évolution de Claude Code fait passer l’accent de la productivité individuelle à la productivité des équipes et des organisations
Plus la vitesse d’écriture du code augmente, plus la sécurité, la validation, la fiabilité et la maintenance deviennent les nouveaux goulots d’étranglement
Comme les capacités des modèles évoluent rapidement, des produits impossibles il y a encore quelques mois deviennent soudain réalisables
Le marché des API reste important
À l’avenir, Claude ira au-delà de l’aide au travail d’une seule personne pour faire monter en puissance le travail de plusieurs personnes et de plusieurs agents à l’échelle d’une organisation entière

Session 8 - Live coding session with Boris Cherny and Jarred Sumner

Robobun de Bun reproduit automatiquement les issues GitHub et crée des PR avec les tests inclus
Le critère de soumission des PR est que les versions précédentes échouent et que le correctif passe sur la branche de correction
CLAUDE.md devient le document d’exploitation de l’agent, contenant les commandes de build, les commandes de test, l’emplacement des tests, les schémas d’échec passés, la structure des dossiers et la manière de lire les logs CI
CodeRabbit, Claude Code Review et Robobun sont utilisés ensemble pour automatiser le style, le respect de CLAUDE.md et l’examen des cas limites hors du diff
Claude Code et Opus 4.7 conviennent bien aux tâches qui améliorent progressivement les performances lorsque l’objectif, la méthode de mesure et les boucles de validation sont clairement définis
Le goulot d’étranglement se déplace de l’écriture du code vers la planification et la validation
Les PR générées par un agent peuvent être traitées non comme des livrables à fusionner obligatoirement, mais comme des propositions révisables
Même si les PR d’agents se multiplient, le niveau d’exigence humain pour fusionner ne baisse pas, et peut au contraire devenir plus élevé

Session 9 - Building with Claude Managed Agents and Asana AI teammates

Les AI teammates d’Asana visent des agents qui travaillent dans l’entreprise comme de véritables collègues
Les agents deviennent des acteurs qui traitent avec les humains les validations, les workflows et les tâches multi-étapes
Dans beaucoup d’entreprises, l’usage des agents reste encore limité à un flux mono-utilisateur où une personne reçoit un résultat puis le transmet à la suivante
Asana vise au contraire des flux de travail collaboratifs où plusieurs personnes interagissent avec le même agent et où les connaissances comme la mémoire s’accumulent
Le Asana work graph relie objectifs, portefeuilles, projets, tâches, validations et décisions passées pour servir de contexte aux agents
Un AI teammate entre dans les systèmes comme un collègue humain, avec configuration partagée, contrôle d’accès basé sur les rôles et auditabilité
Claude Managed Agents gère des tâches en plusieurs étapes comme la rédaction d’un brief de campagne et la génération d’une maquette de landing page HTML
Asana se concentre sur l’interface humaine, le contexte d’entreprise, la sécurité et l’auditabilité, tandis que Claude Managed Agents prend en charge les boucles de validation, les évaluateurs, les outcomes et l’exécution de plusieurs agents
Plus de 21 AI teammates préconstruits sont proposés pour les fonctions PMO, marketing, IT, RH et R&D
Les retours sont conservés dans la mémoire de l’agent afin que l’utilisateur suivant ne refasse pas les mêmes erreurs

Session 10 - Running an AI-native engineering org

Dans une organisation d’ingénierie AI-native, le débit de production de code n’est plus le goulot d’étranglement le plus coûteux
La validation, la revue, la sécurité, la maintenance et la coordination entre métiers deviennent les nouveaux goulots d’étranglement
Pour l’équipe Claude Code, un mode de fonctionnement où l’on planifie au bon moment et où l’on prototype vite est plus adapté qu’une roadmap sur 6 mois ou qu’un document de conception exhaustif avant chaque travail
Les débats techniques évoluent des longues discussions au tableau blanc vers la création de plusieurs PR d’implémentation afin de comparer l’impact réel et la forme des API
À mesure que la génération de code devient plus facile, les tests, l’automatisation et la validation plus précoce gagnent encore en importance
Plus que « qui a écrit ce code », il devient plus important de distinguer la cause d’une régression, la nécessité d’une réponse d’expert et l’objectif de collecte de contexte
L’équipe Claude Code confie à Claude le style, le lint, les retours sur PR, une partie des corrections de bugs et l’ajout de tests
La revue juridique, le code sensible côté sécurité, les frontières de confiance et le sens produit restent du ressort des experts humains
Au recrutement, l’accent est mis davantage sur des builders créatifs avec un sens produit et une expertise système approfondie que sur le simple débit de production
Les indicateurs de succès peuvent inclure la réduction du temps d’onboarding, la diminution du cycle des PR et l’augmentation des commits aidés par Claude

Session 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma renforce ses flux d’édition basés sur des agents en intégrant rapidement au produit les améliorations des appels d’outils et de la coordination d’agents
Gamma utilise les connecteurs MCP non seulement comme fonctionnalités d’intégration, mais aussi comme leviers d’acquisition client et points d’entrée dans les workflows
Cognition réduit certains de ses systèmes internes de planification et de mémoire à mesure que les modèles deviennent meilleurs pour éditer du code, utiliser le système de fichiers et suivre des plans à longue exécution
Harvey reconçoit la structure de son produit à chaque point d’inflexion des foundation models, des modèles de raisonnement et des agents de code
Les capacités actuelles de la plateforme de Harvey auraient été difficiles à obtenir sans une architecture agent-native
Les produits AI-native doivent partir du principe que leur structure actuelle peut devenir obsolète en 6 à 12 mois
L’enregistrement, l’observabilité, la relecture et l’évaluation deviennent des mécanismes indispensables pour faire face à des changements d’architecture rapides
Dans les domaines sensibles comme le droit, il faut des frontières de données solides entre données publiques, données privées, mémoire et flux d’agents
Une architecture capable d’absorber rapidement le prochain saut de capacités devient plus importante qu’une architecture optimisée pour les limites d’un modèle donné

Session 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel considère l’infrastructure agentique comme une orientation centrale
Le cloud peut évoluer vers une infrastructure capable de s’auto-réparer, de s’optimiser et de modifier sa propre configuration
AI Gateway est traité comme un CDN pour les tokens
Il devient une couche qui gère plusieurs fournisseurs et modèles, en prenant en charge le routage, la tolérance aux pannes et le contrôle des coûts
Les tokens Opus représentent une part de dépense bien plus importante que leur part d’usage, donc il faut examiner clairement la structure de coûts lorsqu’on intègre un modèle très intelligent dans un produit
Après l’introduction de Opus 4.5, V0 a pu simplifier le correcteur syntaxique, l’auto-correction et certaines étapes de traitement qui servaient auparavant à compenser les anciens modèles
Les bonds de capacité des modèles ne se traduisent pas seulement par l’ajout de nouvelles fonctionnalités, mais aussi par la suppression du code de compensation existant
Après l’extension de l’usage d’Opus dans V0, les dépenses en crédits produit ont doublé
À l’avenir, au-delà du développement via CLI et UI, des agents asynchrones nécessitant moins de supervision humaine pourraient prendre plus d’ampleur

Session 13 - The thinking lever

Le test-time compute est l’axe sur lequel Claude résout des problèmes difficiles en consommant plus de tokens et de temps pendant le raisonnement
Un même Opus 4.7 peut produire une qualité de simulation du trafic très différente selon le niveau d’effort : low, high ou max
Plus on lui accorde de temps et de tokens, plus les graphismes, les flux de circulation et les mouvements des véhicules deviennent réalistes
Les tokens utilisés par Claude se répartissent entre tokens de raisonnement, tokens d’appel d’outils et tokens de texte
Les tokens de raisonnement servent à l’inférence interne, les tokens d’appel d’outils à l’interaction avec le monde extérieur, et les tokens de texte à la communication avec l’utilisateur
effort est un levier qui exprime l’équilibre entre temps, coût et qualité
Task Budgets permet de fixer un plafond de tokens, de temps et de coût que Claude peut utiliser pour une tâche donnée
L’adaptive thinking permet à Claude de choisir librement quand réfléchir, utiliser des outils et répondre à l’utilisateur
Pour le coding et les cas d’usage agentiques, extra high est considéré comme une bonne valeur par défaut
Pour de la classification ou de l’extraction simple à grande échelle, les petits modèles sont avantagés, tandis que pour terminer rapidement des tâches nécessitant de l’intelligence, un grand modèle avec un effort faible peut être préférable

Session 14 - How Datadog built a universal machine tool for Claude Code

Environ 90 % des ingénieurs de Datadog utilisent des outils de codage IA sur du code en production
Parmi eux, au moins 2/3 utilisent Claude Code
Le périmètre d’usage des outils de codage IA s’élargit, des fonctions individuelles, tests et code de liaison vers des tâches à l’échelle du système
Le goulot d’étranglement se déplace de l’écriture du code vers les boucles de feedback et la validation en conditions de production
Dans l’expérience Helix, Claude Code a pu créer en quelques jours un service de streaming comparable à Kafka
Pour l’amener en production, il faut du shadowing, une échelle progressive de validation et du mileage système
Tempor oblige l’agent à produire d’abord un blueprint contenant état, transitions, effets et invariants, plutôt que d’improviser des outils
Les tables de transition, documents de politique, effets typés, validateurs et tests de propriétés rendent inspectable le logiciel produit par l’agent
Pour donner de la liberté à un agent, il faut rendre lisibles par la machine les invariants et les procédures de validation des systèmes de production

Session 15 - Building with Claude on Google Cloud

Sur Google Cloud, la façon la plus simple de configurer Claude Code passe par un assistant de configuration fondé sur Application Default Credentials
L’assistant de configuration peut détecter et fixer le projet, la région et les modèles disponibles
Utiliser les modèles Claude sur Google Cloud permet de bénéficier de la facturation basée sur les tokens, du provisioned throughput, d’une moindre charge liée à la rotation des API keys, de l’application des politiques de projet, du maintien des données dans le projet, et des endpoints régionaux ou globaux
La démo suit cinq rôles — PM, UI/UX designer, software engineer, security engineer et data/growth marketer — construisant de bout en bout une application de feedback
Le PM injecte un wireframe dessiné à la main dans Claude Code pour créer rapidement un prototype
À l’étape UI/UX, le plan mode amène Claude à proposer d’abord un plan avant l’implémentation
La Google Cloud developer knowledge API et le MCP server relient Claude Code à la documentation la plus récente et aux guides d’architecture
Google Cloud Skills aide à implémenter des blocs unitaires comme le déploiement d’API sur Cloud Run ou la connexion entre Cloud Run et Firestore
Des sub-agents sont utilisés pour paralléliser l’implémentation de l’API, du pipeline d’ingestion et du dashboard
Le security review prompt vérifie les problèmes OWASP et les permissions des service accounts, corrige les problèmes détectés, puis déploie sur Cloud Run

Session 16 - Getting more out of the Claude Platform

Les priorités pour optimiser des agents en production sont le prompt caching, le context engineering et la stratégie Advisor
Le prompt caching réduit le coût des tokens d’entrée, diminue le temps jusqu’au premier token et allège la pression sur les limites d’usage des tokens mis en cache
Un taux de hit cache dans les 90 % est traité comme un objectif
La stabilité du début du prompt, l’emplacement des définitions d’outils et l’endroit où l’on insère les valeurs dynamiques influencent tous le cache
Le tool search tool ne charge que les définitions d’outils nécessaires au bon moment afin d’économiser le contexte
Injecter tous les outils dès le départ alourdit à la fois le contexte et le cache
Le programmatic tool calling sélectionne uniquement les fragments nécessaires des résultats d’outils au lieu de les injecter en totalité dans le contexte
La compaction réduit les anciens dialogues et les résultats d’outils pour permettre de poursuivre des tâches longues
La stratégie Advisor consiste à laisser Sonnet ou Haiku faire l’essentiel du travail, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire
L’essentiel n’est pas d’appeler davantage le modèle, mais de concevoir le contexte, les outils et la structure de cache dans lesquels le modèle va travailler

Session 17 - Evaluating and improving Replit Agent at scale

Les utilisateurs de Replit Agent s’attendent à obtenir une application fonctionnelle à partir du seul langage naturel, sans préciser de framework ni de test
Contrairement aux benchmarks de codage classiques, il est difficile de mesurer la qualité de Replit Agent en regardant seulement si un patch passe les tests
L’évaluation doit vérifier si l’application fonctionne comme l’utilisateur l’a demandé
Replit utilise à la fois des évaluations hors ligne et des évaluations en ligne
L’évaluation hors ligne sert de porte de contrôle avant une nouvelle release de l’agent, tandis que l’évaluation en ligne sert à réagir rapidement après l’usage réel
VibeBench est un benchmark public où 20 PRD réels servent d’entrées pour construire une application à partir d’un dépôt vide, puis un évaluateur automatique la teste dans le navigateur
La plupart des modèles ont davantage de difficultés à étendre ensuite le code qu’ils ont eux-mêmes produit
Il faut placer des étapes de test et de validation entre les fonctionnalités pour éviter d’empiler en continu sur une base instable
Telescope est un système interne qui regroupe sémantiquement les traces d’exécution en production pour trouver les échecs de longue traîne, classifier les problèmes, faire créer une PR par l’agent, puis valider via VibeBench ou des tests A/B
L’évaluation ne devient plus une simple checklist finale avant livraison, mais un moteur d’amélioration quotidienne de l’agent

Session 18 - The capability curve

Les utilisateurs de Claude Code déploient plus vite avec une confiance accrue par rapport à l’an dernier
Lors d’un vote du public pendant la présentation, de nombreux participants ont indiqué ressentir avec Claude une accélération de 10x, 5x ou 2x
Sur SWE-bench Verified, Sonnet 3.7 atteint environ 62 %, et Opus 4.7 87 %
Opus 4.7 a plus de 3 fois plus de chances de réussir des PR difficiles là où Sonnet 3.7 échouait
Dans une démo consistant à reproduire Claude.ai avec le même prompt, les modèles précédents ont produit une interface de chat générique avec des erreurs, tandis que Opus 4.7 a implémenté les couleurs de Claude, les réponses API, l’historique de chat, des graphiques inline et le dark mode
Les domaines améliorés sont la planification, la récupération après erreur et le maintien de l’attention sur de longues exécutions
Le nouveau modèle planifie d’abord, revient en arrière en cas d’échec et conserve mieux le prompt système et les objectifs même dans un long contexte
Il faut créer des évaluations dont la distribution se rapproche de celle du produit pour observer de réelles améliorations
À mesure que les modèles s’améliorent, les évaluations existantes saturent facilement, donc les évaluations doivent elles aussi devenir plus difficiles
Lorsqu’un nouveau frontier model sort, il peut être nécessaire de reprendre les procédures d’étalonnage et de réduire à nouveau les prompts existants

Session 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor estime que le goulot d’étranglement ne vient pas tant de l’intelligence du modèle que du fait que les humains ne donnent pas au modèle suffisamment d’outils, de contexte et d’objectifs ambitieux
Comme on onboarde un développeur humain, un agent doit lui aussi recevoir un ordinateur, un environnement de développement et de la documentation
L’onboarding agent de Cursor explore le dépôt, identifie comment lancer l’application, ainsi que les services, variables d’environnement et permissions nécessaires
AnyDev CLI est un outil qui aide l’agent à démarrer des services, attendre qu’ils soient prêts, vérifier leur état et aller jusqu’à créer un compte de test ou se connecter
Plus l’environnement de développement des agents s’améliore, plus les développeurs lancent de cloud agents et leur confient des tâches importantes
Le principe de base de l’autonomie consiste à donner à l’agent des yeux, des outils et un bon contexte
Les agents doivent pouvoir voir, comme les humains, l’état de l’application, les conversations des autres agents et l’état des services
Cursor considère computer use comme un élément fondamental important après le codage
Claude 4.7 permet à un agent d’enregistrer lui-même une démo end-to-end pour valider une fonctionnalité et aider l’humain à comprendre rapidement le résultat avant la revue de code
Cursor traite l’agent experience comme un objet de conception distinct, et lorsqu’un agent rencontre un flux pénible, cassé ou confus, il lui fait créer une issue work on the factory
L’objectif final n’est pas que l’humain guide manuellement de A à D, mais de construire un système capable de résoudre les choses de A à Z