9 points par xguru 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • La conférence développeurs d’Anthropic : elle se tient en ligne et en présentiel, avec des événements physiques à San Francisco le 6/5, Londres le 19/5, Tokyo le 10/6. Lors de l’événement de San Francisco, les vidéos de 19 sessions ont été publiées
  • Claude évolue vers l’exécution de tâches plus longues, une mémoire de long terme, l’usage d’un plus grand nombre d’outils et une meilleure vérification
  • Le changement clé est que des éléments que les développeurs construisaient eux-mêmes — exécution itérative, sélection d’outils, vérification, mémoire, gestion du contexte — sont en train d’être intégrés aux produits et à la plateforme Claude
  • La différenciation des produits et des organisations se déplace : elle dépend moins de la manière d’appeler le modèle que de quels outils, données, permissions et contexte on ouvre au modèle
  • Plus encore que l’écriture de code elle-même, la vérification, la sécurité, la gestion des permissions, l’observabilité, les systèmes d’évaluation et le fonctionnement organisationnel deviennent les nouveaux goulots d’étranglement
  • Les domaines qui vont devenir importants sont les outils sur mesure, une mémoire fiable, l’évaluation, les frontières de sécurité, le context engineering et l’agent experience

Session 1 - Keynote

  • L’accent a été mis sur des améliorations produit visant à faire mieux fonctionner Claude Code et Claude Platform pour les développeurs
  • La plupart des utilisateurs n’emploient pas directement l’API Claude ou le terminal ; ils utilisent Claude dans des produits créés par des développeurs
  • L’usage de l’API Claude Platform a été multiplié par presque 17 sur un an
  • Le développeur moyen de Claude Code fait tourner Claude 20 heures par semaine
  • La limite d’utilisation de 5 heures de Claude Code a été doublée pour les offres Pro, Max, Team et les seat-based Enterprise plans
  • Les limites de l’API Claude Opus ont elles aussi été fortement relevées
  • Anthropic veut exploiter la capacité du datacenter Colossus One de SpaceX pour fournir davantage de ressources de calcul aux développeurs indépendants et aux petites équipes
  • Opus 4.7 améliore, chez Amp, Rakuten et Intuit, les performances des agents de code, la qualité de la planification et le taux de résolution de véritables tâches d’ingénierie
  • La suite pour Claude va vers un meilleur jugement, un contexte et une mémoire plus vastes, ainsi que la collaboration entre plusieurs agents

Session 2 - What's new in Claude Code

  • Les nouvelles fonctions de Claude Code s’organisent autour de deux axes : l’ergonomie pour les développeurs et le renforcement de l’autonomie
  • Remote Control permet de reprendre sur le web ou sur mobile une session démarrée dans le terminal
  • Full screen terminal UI utilise un scrollback virtuel pour offrir un rendu sans scintillement et un écran d’appels d’outils cliquable
  • L’interface graphique de Claude Code a été revue pour permettre de gérer plusieurs sessions avec épinglage, filtrage, regroupement et écran partagé
  • Dans les vues plan, diff et files, il est possible de laisser des commentaires ligne par ligne, que Claude pourra regrouper et traiter plus tard
  • Auto Mode classe les appels d’outils selon qu’ils sont destructifs ou qu’ils ressemblent à une injection de prompt, puis les exécute sans demande d’autorisation s’ils sont sûrs
  • Le worktree permet à plusieurs sessions Claude de travailler en parallèle, chacune dans sa propre branche isolée et avec sa propre copie des fichiers
  • La mémoire automatique (auto memory) permet à Claude de gérer les fichiers memory.md et les fichiers associés par projet, puis de réutiliser dans les sessions suivantes les commandes de build, les indices de débogage et les préférences du projet
  • Routines et /loop permettent d’exécuter automatiquement des sessions Claude Code via cron, GitHub webhook ou déclencheur API

Session 3 - Memory and dreaming for self-learning agents

  • La mémoire est présentée comme l’élément fondamental de l’étape suivante après MCP, Claude Code, Agent SDK et Skills
  • La mémoire des Claude Managed Agents est organisée comme un système de fichiers, ce qui permet à Claude de l’organiser et de la mettre à jour directement avec Bash et Grep
  • Opus 4.7 juge mieux ce qu’il faut conserver, comment répartir les fichiers et comment maintenir la structure de la mémoire
  • Il est possible de séparer une mémoire organisationnelle en lecture seule et une mémoire de travail en lecture-écriture, afin que plusieurs agents puissent lire et écrire dans le même dépôt mémoire
  • Pour éviter les écrasements même lorsque des centaines d’agents modifient la mémoire en même temps, le système utilise un contrôle de concurrence optimiste basé sur des hash de contenu
  • L’historique des modifications, l’auteur, la session et le moment sont conservés, afin de gérer la mémoire comme une mémoire audit-able en environnement d’entreprise
  • Dreaming analyse de manière asynchrone les sessions récentes des agents et leurs transcripts afin d’identifier et de nettoyer les erreurs répétées, les stratégies gagnantes, les mémoires en doublon et les mémoires obsolètes
  • Harvey a appliqué Dreaming à un benchmark juridique, ce qui a permis de multiplier par 6 le taux d’achèvement des tâches dans un scénario juridique
  • Dans une démo SRE, Dreaming a repéré un schéma de nouvelle tentative toutes les 60 secondes que plusieurs agents, pris séparément, ne voyaient pas, puis l’a intégré à la mémoire
  • L’objectif est une structure d’apprentissage continu dans laquelle le travail des agents d’aujourd’hui améliore automatiquement ceux de demain

Session 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

  • À l’échelle de GitHub Copilot, le prompt caching devient un levier clé pour réduire les coûts et la latence
  • Le taux de hit visé pour le cache est de 94-96 % ; un niveau autour de 70 % est considéré comme le signe d’un problème dans l’assemblage des prompts ou la conception du cache
  • La partie avant du prompt système et de la liste d’outils doit rester aussi statique que possible
  • Si des UUID, des timestamps ou un chargement dynamique des outils se retrouvent au début, le cache se casse facilement
  • Même dans un harness qui fait passer les requêtes entre plusieurs modèles, il faut préserver l’affinité avec le cache pour que les appels à Opus réutilisent les caches précédents
  • GitHub fait passer les nouveaux modèles par les étapes benchmark hors ligne, usage interne, test A/B, évaluation en ligne (eval), optimisation après lancement
  • La stratégie Advisor consiste à faire faire l’essentiel du travail à un modèle d’exécution peu coûteux, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire
  • Plus que le modèle lui-même, c’est la couche opérationnelle qui regroupe prompts, outils, cache, sélection de modèle, évaluation et feedback en ligne qui détermine la qualité et le coût

Session 5 - The expanding toolkit

  • Le code auxiliaire que l’on écrivait à la main l’an dernier est désormais intégré au modèle et à l’API
  • Dans l’usage des outils, la valeur des routeurs manuels ou des retry decorators diminue
  • Claude peut lui-même trouver les outils, constater l’échec d’un appel d’outil, s’en remettre, puis relancer l’appel
  • Dans la documentation des outils, il est préférable d’indiquer non seulement les entrées, mais aussi le schéma de sortie
  • En connaissant à l’avance la structure de sortie, Claude peut mieux exploiter le résultat sans appels aller-retour inutiles
  • Les hooks d’outils avant/après de Claude Code peuvent servir à bloquer certains appels, ou à enregistrer et analyser automatiquement les résultats
  • Avec un contexte d’un million de tokens, la compression côté serveur et l’édition du contexte, la gestion du contexte dans les tâches longues devient plus simple
  • On peut supprimer périodiquement les anciennes captures d’écran, résultats de recherche et lectures de fichiers, tout en conservant les décisions qui en sont issues
  • Opus 4.7 peut renvoyer des coordonnées de pixels 1:1 à partir de captures d’écran en résolution native jusqu’à 1440p, ce qui réduit la charge de correction des coordonnées pour l’automatisation d’écran
  • Le code qui compense les limites du modèle a une durée de vie courte, tandis que le code qui relie outils, données, authentification et contexte métier que Claude ne peut pas voir directement restera plus durable

Session 6 - How to get to production faster with Claude Managed Agents

  • Claude Managed Agents regroupe dans une plateforme la gestion du contexte, la gestion des identifiants, la sécurité, le contrôle d’accès, la revue humaine et l’observabilité nécessaires aux agents de production exécutés sur de longues durées
  • La configuration de base comprend agent configuration, environment et session
  • Les session events permettent de voir les événements utilisateur, les événements agent, les événements de session et les événements d’étape
  • La console réunit sur un seul écran la configuration, l’environnement, la trace d’exécution complète, les goulots d’étranglement et les actions recommandées
  • outcomes est une fonctionnalité qui pousse Claude à itérer jusqu’à satisfaire des critères de fin et des critères d’évaluation définis à l’avance
  • La coordination de plusieurs agents, la mémoire et Dreaming sont également abordés comme fonctionnalités avancées
  • Dans la démo du tableau de bord, l’agent a trouvé la parallélisation, le fast mode et l’optimisation du prompt, réduisant le temps de rendu d’environ 37 secondes à 10 secondes
  • Un agent de production ne doit pas seulement disposer d’une boucle répétée d’appels au modèle, mais aussi de traçabilité, d’analyse des goulots d’étranglement, de permissions et de validation

Session 7 - A conversation with Dario Amodei & Daniela Amodei

  • Anthropic manque de ressources de calcul en raison d’une croissance de l’usage et du chiffre d’affaires plus rapide que prévu
  • L’entreprise cherche à sécuriser une capacité de calcul supplémentaire pour en faire bénéficier davantage les développeurs et les utilisateurs
  • Les développeurs sont présentés comme les utilisateurs clés de Claude et comme le groupe qui montre en premier comment l’IA se diffuse dans l’ensemble de l’économie
  • La prochaine évolution de Claude Code fait passer l’accent de la productivité individuelle à la productivité des équipes et des organisations
  • Plus la vitesse d’écriture du code augmente, plus la sécurité, la validation, la fiabilité et la maintenance deviennent les nouveaux goulots d’étranglement
  • Comme les capacités des modèles évoluent rapidement, des produits impossibles il y a encore quelques mois deviennent soudain réalisables
  • Le marché des API reste important
  • À l’avenir, Claude ira au-delà de l’aide au travail d’une seule personne pour faire monter en puissance le travail de plusieurs personnes et de plusieurs agents à l’échelle d’une organisation entière

Session 8 - Live coding session with Boris Cherny and Jarred Sumner

  • Robobun de Bun reproduit automatiquement les issues GitHub et crée des PR avec les tests inclus
  • Le critère de soumission des PR est que les versions précédentes échouent et que le correctif passe sur la branche de correction
  • CLAUDE.md devient le document d’exploitation de l’agent, contenant les commandes de build, les commandes de test, l’emplacement des tests, les schémas d’échec passés, la structure des dossiers et la manière de lire les logs CI
  • CodeRabbit, Claude Code Review et Robobun sont utilisés ensemble pour automatiser le style, le respect de CLAUDE.md et l’examen des cas limites hors du diff
  • Claude Code et Opus 4.7 conviennent bien aux tâches qui améliorent progressivement les performances lorsque l’objectif, la méthode de mesure et les boucles de validation sont clairement définis
  • Le goulot d’étranglement se déplace de l’écriture du code vers la planification et la validation
  • Les PR générées par un agent peuvent être traitées non comme des livrables à fusionner obligatoirement, mais comme des propositions révisables
  • Même si les PR d’agents se multiplient, le niveau d’exigence humain pour fusionner ne baisse pas, et peut au contraire devenir plus élevé

Session 9 - Building with Claude Managed Agents and Asana AI teammates

  • Les AI teammates d’Asana visent des agents qui travaillent dans l’entreprise comme de véritables collègues
  • Les agents deviennent des acteurs qui traitent avec les humains les validations, les workflows et les tâches multi-étapes
  • Dans beaucoup d’entreprises, l’usage des agents reste encore limité à un flux mono-utilisateur où une personne reçoit un résultat puis le transmet à la suivante
  • Asana vise au contraire des flux de travail collaboratifs où plusieurs personnes interagissent avec le même agent et où les connaissances comme la mémoire s’accumulent
  • Le Asana work graph relie objectifs, portefeuilles, projets, tâches, validations et décisions passées pour servir de contexte aux agents
  • Un AI teammate entre dans les systèmes comme un collègue humain, avec configuration partagée, contrôle d’accès basé sur les rôles et auditabilité
  • Claude Managed Agents gère des tâches en plusieurs étapes comme la rédaction d’un brief de campagne et la génération d’une maquette de landing page HTML
  • Asana se concentre sur l’interface humaine, le contexte d’entreprise, la sécurité et l’auditabilité, tandis que Claude Managed Agents prend en charge les boucles de validation, les évaluateurs, les outcomes et l’exécution de plusieurs agents
  • Plus de 21 AI teammates préconstruits sont proposés pour les fonctions PMO, marketing, IT, RH et R&D
  • Les retours sont conservés dans la mémoire de l’agent afin que l’utilisateur suivant ne refasse pas les mêmes erreurs

Session 10 - Running an AI-native engineering org

  • Dans une organisation d’ingénierie AI-native, le débit de production de code n’est plus le goulot d’étranglement le plus coûteux
  • La validation, la revue, la sécurité, la maintenance et la coordination entre métiers deviennent les nouveaux goulots d’étranglement
  • Pour l’équipe Claude Code, un mode de fonctionnement où l’on planifie au bon moment et où l’on prototype vite est plus adapté qu’une roadmap sur 6 mois ou qu’un document de conception exhaustif avant chaque travail
  • Les débats techniques évoluent des longues discussions au tableau blanc vers la création de plusieurs PR d’implémentation afin de comparer l’impact réel et la forme des API
  • À mesure que la génération de code devient plus facile, les tests, l’automatisation et la validation plus précoce gagnent encore en importance
  • Plus que « qui a écrit ce code », il devient plus important de distinguer la cause d’une régression, la nécessité d’une réponse d’expert et l’objectif de collecte de contexte
  • L’équipe Claude Code confie à Claude le style, le lint, les retours sur PR, une partie des corrections de bugs et l’ajout de tests
  • La revue juridique, le code sensible côté sécurité, les frontières de confiance et le sens produit restent du ressort des experts humains
  • Au recrutement, l’accent est mis davantage sur des builders créatifs avec un sens produit et une expertise système approfondie que sur le simple débit de production
  • Les indicateurs de succès peuvent inclure la réduction du temps d’onboarding, la diminution du cycle des PR et l’augmentation des commits aidés par Claude

Session 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

  • Gamma renforce ses flux d’édition basés sur des agents en intégrant rapidement au produit les améliorations des appels d’outils et de la coordination d’agents
  • Gamma utilise les connecteurs MCP non seulement comme fonctionnalités d’intégration, mais aussi comme leviers d’acquisition client et points d’entrée dans les workflows
  • Cognition réduit certains de ses systèmes internes de planification et de mémoire à mesure que les modèles deviennent meilleurs pour éditer du code, utiliser le système de fichiers et suivre des plans à longue exécution
  • Harvey reconçoit la structure de son produit à chaque point d’inflexion des foundation models, des modèles de raisonnement et des agents de code
  • Les capacités actuelles de la plateforme de Harvey auraient été difficiles à obtenir sans une architecture agent-native
  • Les produits AI-native doivent partir du principe que leur structure actuelle peut devenir obsolète en 6 à 12 mois
  • L’enregistrement, l’observabilité, la relecture et l’évaluation deviennent des mécanismes indispensables pour faire face à des changements d’architecture rapides
  • Dans les domaines sensibles comme le droit, il faut des frontières de données solides entre données publiques, données privées, mémoire et flux d’agents
  • Une architecture capable d’absorber rapidement le prochain saut de capacités devient plus importante qu’une architecture optimisée pour les limites d’un modèle donné

Session 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

  • Vercel considère l’infrastructure agentique comme une orientation centrale
  • Le cloud peut évoluer vers une infrastructure capable de s’auto-réparer, de s’optimiser et de modifier sa propre configuration
  • AI Gateway est traité comme un CDN pour les tokens
  • Il devient une couche qui gère plusieurs fournisseurs et modèles, en prenant en charge le routage, la tolérance aux pannes et le contrôle des coûts
  • Les tokens Opus représentent une part de dépense bien plus importante que leur part d’usage, donc il faut examiner clairement la structure de coûts lorsqu’on intègre un modèle très intelligent dans un produit
  • Après l’introduction de Opus 4.5, V0 a pu simplifier le correcteur syntaxique, l’auto-correction et certaines étapes de traitement qui servaient auparavant à compenser les anciens modèles
  • Les bonds de capacité des modèles ne se traduisent pas seulement par l’ajout de nouvelles fonctionnalités, mais aussi par la suppression du code de compensation existant
  • Après l’extension de l’usage d’Opus dans V0, les dépenses en crédits produit ont doublé
  • À l’avenir, au-delà du développement via CLI et UI, des agents asynchrones nécessitant moins de supervision humaine pourraient prendre plus d’ampleur

Session 13 - The thinking lever

  • Le test-time compute est l’axe sur lequel Claude résout des problèmes difficiles en consommant plus de tokens et de temps pendant le raisonnement
  • Un même Opus 4.7 peut produire une qualité de simulation du trafic très différente selon le niveau d’effort : low, high ou max
  • Plus on lui accorde de temps et de tokens, plus les graphismes, les flux de circulation et les mouvements des véhicules deviennent réalistes
  • Les tokens utilisés par Claude se répartissent entre tokens de raisonnement, tokens d’appel d’outils et tokens de texte
  • Les tokens de raisonnement servent à l’inférence interne, les tokens d’appel d’outils à l’interaction avec le monde extérieur, et les tokens de texte à la communication avec l’utilisateur
  • effort est un levier qui exprime l’équilibre entre temps, coût et qualité
  • Task Budgets permet de fixer un plafond de tokens, de temps et de coût que Claude peut utiliser pour une tâche donnée
  • L’adaptive thinking permet à Claude de choisir librement quand réfléchir, utiliser des outils et répondre à l’utilisateur
  • Pour le coding et les cas d’usage agentiques, extra high est considéré comme une bonne valeur par défaut
  • Pour de la classification ou de l’extraction simple à grande échelle, les petits modèles sont avantagés, tandis que pour terminer rapidement des tâches nécessitant de l’intelligence, un grand modèle avec un effort faible peut être préférable

Session 14 - How Datadog built a universal machine tool for Claude Code

  • Environ 90 % des ingénieurs de Datadog utilisent des outils de codage IA sur du code en production
  • Parmi eux, au moins 2/3 utilisent Claude Code
  • Le périmètre d’usage des outils de codage IA s’élargit, des fonctions individuelles, tests et code de liaison vers des tâches à l’échelle du système
  • Le goulot d’étranglement se déplace de l’écriture du code vers les boucles de feedback et la validation en conditions de production
  • Dans l’expérience Helix, Claude Code a pu créer en quelques jours un service de streaming comparable à Kafka
  • Pour l’amener en production, il faut du shadowing, une échelle progressive de validation et du mileage système
  • Tempor oblige l’agent à produire d’abord un blueprint contenant état, transitions, effets et invariants, plutôt que d’improviser des outils
  • Les tables de transition, documents de politique, effets typés, validateurs et tests de propriétés rendent inspectable le logiciel produit par l’agent
  • Pour donner de la liberté à un agent, il faut rendre lisibles par la machine les invariants et les procédures de validation des systèmes de production

Session 15 - Building with Claude on Google Cloud

  • Sur Google Cloud, la façon la plus simple de configurer Claude Code passe par un assistant de configuration fondé sur Application Default Credentials
  • L’assistant de configuration peut détecter et fixer le projet, la région et les modèles disponibles
  • Utiliser les modèles Claude sur Google Cloud permet de bénéficier de la facturation basée sur les tokens, du provisioned throughput, d’une moindre charge liée à la rotation des API keys, de l’application des politiques de projet, du maintien des données dans le projet, et des endpoints régionaux ou globaux
  • La démo suit cinq rôles — PM, UI/UX designer, software engineer, security engineer et data/growth marketer — construisant de bout en bout une application de feedback
  • Le PM injecte un wireframe dessiné à la main dans Claude Code pour créer rapidement un prototype
  • À l’étape UI/UX, le plan mode amène Claude à proposer d’abord un plan avant l’implémentation
  • La Google Cloud developer knowledge API et le MCP server relient Claude Code à la documentation la plus récente et aux guides d’architecture
  • Google Cloud Skills aide à implémenter des blocs unitaires comme le déploiement d’API sur Cloud Run ou la connexion entre Cloud Run et Firestore
  • Des sub-agents sont utilisés pour paralléliser l’implémentation de l’API, du pipeline d’ingestion et du dashboard
  • Le security review prompt vérifie les problèmes OWASP et les permissions des service accounts, corrige les problèmes détectés, puis déploie sur Cloud Run

Session 16 - Getting more out of the Claude Platform

  • Les priorités pour optimiser des agents en production sont le prompt caching, le context engineering et la stratégie Advisor
  • Le prompt caching réduit le coût des tokens d’entrée, diminue le temps jusqu’au premier token et allège la pression sur les limites d’usage des tokens mis en cache
  • Un taux de hit cache dans les 90 % est traité comme un objectif
  • La stabilité du début du prompt, l’emplacement des définitions d’outils et l’endroit où l’on insère les valeurs dynamiques influencent tous le cache
  • Le tool search tool ne charge que les définitions d’outils nécessaires au bon moment afin d’économiser le contexte
  • Injecter tous les outils dès le départ alourdit à la fois le contexte et le cache
  • Le programmatic tool calling sélectionne uniquement les fragments nécessaires des résultats d’outils au lieu de les injecter en totalité dans le contexte
  • La compaction réduit les anciens dialogues et les résultats d’outils pour permettre de poursuivre des tâches longues
  • La stratégie Advisor consiste à laisser Sonnet ou Haiku faire l’essentiel du travail, puis à n’appeler Opus comme conseiller que lorsqu’un jugement important est nécessaire
  • L’essentiel n’est pas d’appeler davantage le modèle, mais de concevoir le contexte, les outils et la structure de cache dans lesquels le modèle va travailler

Session 17 - Evaluating and improving Replit Agent at scale

  • Les utilisateurs de Replit Agent s’attendent à obtenir une application fonctionnelle à partir du seul langage naturel, sans préciser de framework ni de test
  • Contrairement aux benchmarks de codage classiques, il est difficile de mesurer la qualité de Replit Agent en regardant seulement si un patch passe les tests
  • L’évaluation doit vérifier si l’application fonctionne comme l’utilisateur l’a demandé
  • Replit utilise à la fois des évaluations hors ligne et des évaluations en ligne
  • L’évaluation hors ligne sert de porte de contrôle avant une nouvelle release de l’agent, tandis que l’évaluation en ligne sert à réagir rapidement après l’usage réel
  • VibeBench est un benchmark public où 20 PRD réels servent d’entrées pour construire une application à partir d’un dépôt vide, puis un évaluateur automatique la teste dans le navigateur
  • La plupart des modèles ont davantage de difficultés à étendre ensuite le code qu’ils ont eux-mêmes produit
  • Il faut placer des étapes de test et de validation entre les fonctionnalités pour éviter d’empiler en continu sur une base instable
  • Telescope est un système interne qui regroupe sémantiquement les traces d’exécution en production pour trouver les échecs de longue traîne, classifier les problèmes, faire créer une PR par l’agent, puis valider via VibeBench ou des tests A/B
  • L’évaluation ne devient plus une simple checklist finale avant livraison, mais un moteur d’amélioration quotidienne de l’agent

Session 18 - The capability curve

  • Les utilisateurs de Claude Code déploient plus vite avec une confiance accrue par rapport à l’an dernier
  • Lors d’un vote du public pendant la présentation, de nombreux participants ont indiqué ressentir avec Claude une accélération de 10x, 5x ou 2x
  • Sur SWE-bench Verified, Sonnet 3.7 atteint environ 62 %, et Opus 4.7 87 %
  • Opus 4.7 a plus de 3 fois plus de chances de réussir des PR difficiles là où Sonnet 3.7 échouait
  • Dans une démo consistant à reproduire Claude.ai avec le même prompt, les modèles précédents ont produit une interface de chat générique avec des erreurs, tandis que Opus 4.7 a implémenté les couleurs de Claude, les réponses API, l’historique de chat, des graphiques inline et le dark mode
  • Les domaines améliorés sont la planification, la récupération après erreur et le maintien de l’attention sur de longues exécutions
  • Le nouveau modèle planifie d’abord, revient en arrière en cas d’échec et conserve mieux le prompt système et les objectifs même dans un long contexte
  • Il faut créer des évaluations dont la distribution se rapproche de celle du produit pour observer de réelles améliorations
  • À mesure que les modèles s’améliorent, les évaluations existantes saturent facilement, donc les évaluations doivent elles aussi devenir plus difficiles
  • Lorsqu’un nouveau frontier model sort, il peut être nécessaire de reprendre les procédures d’étalonnage et de réduire à nouveau les prompts existants

Session 19 - Giving coding agents their own computers: How Cursor built cloud agents

  • Cursor estime que le goulot d’étranglement ne vient pas tant de l’intelligence du modèle que du fait que les humains ne donnent pas au modèle suffisamment d’outils, de contexte et d’objectifs ambitieux
  • Comme on onboarde un développeur humain, un agent doit lui aussi recevoir un ordinateur, un environnement de développement et de la documentation
  • L’onboarding agent de Cursor explore le dépôt, identifie comment lancer l’application, ainsi que les services, variables d’environnement et permissions nécessaires
  • AnyDev CLI est un outil qui aide l’agent à démarrer des services, attendre qu’ils soient prêts, vérifier leur état et aller jusqu’à créer un compte de test ou se connecter
  • Plus l’environnement de développement des agents s’améliore, plus les développeurs lancent de cloud agents et leur confient des tâches importantes
  • Le principe de base de l’autonomie consiste à donner à l’agent des yeux, des outils et un bon contexte
  • Les agents doivent pouvoir voir, comme les humains, l’état de l’application, les conversations des autres agents et l’état des services
  • Cursor considère computer use comme un élément fondamental important après le codage
  • Claude 4.7 permet à un agent d’enregistrer lui-même une démo end-to-end pour valider une fonctionnalité et aider l’humain à comprendre rapidement le résultat avant la revue de code
  • Cursor traite l’agent experience comme un objet de conception distinct, et lorsqu’un agent rencontre un flux pénible, cassé ou confus, il lui fait créer une issue work on the factory
  • L’objectif final n’est pas que l’humain guide manuellement de A à D, mais de construire un système capable de résoudre les choses de A à Z

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.