Publication de Thoughtworks Technology Radar, Volume 34

(thoughtworks.com)

12 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Visualisation et explication des dernières tendances dans les catégories techniques/outils/plateformes/langages de développement et frameworks selon quatre niveaux : "adopter", "essayer", "évaluer", "surveiller"
Quatre thèmes clés : l’ère des agents et l’évaluation des technologies, conserver les principes mais réexaminer les patterns, les enjeux de sécurité des agents, les harnais pour agents de code

L’ère des agents et les difficultés de l’évaluation technologique

Avec l’adoption de l’IA, l’évaluation technologique elle-même devient plus difficile, et la diffusion sémantique (semantic diffusion) fait apparaître rapidement de nouveaux termes avant même que leur sens ne se stabilise
- Des termes comme spec-driven development ou harness engineering sont utilisés de manière incohérente ou avec des sens qui se recoupent
- En l’absence de définitions partagées, il devient difficile de déterminer s’il s’agit de techniques distinctes ou de noms différents pour un même concept
Distinguer une méthodologie d’ingénierie autonome arrivée à maturité de l’usage quotidien d’outils IA comme les assistants de code reste une difficulté persistante
La vitesse du changement accroît l’incertitude, avec de nombreux outils âgés de moins d’un mois, dont certains sont maintenus par un seul contributeur avec l’aide d’un agent de code
- Attendre la maturité des outils risque de rendre les recommandations obsolètes, mais aller trop vite risque de mettre en avant des tendances qui disparaîtront rapidement
- Cela soulève la question de la pérennité de ce qui est produit vite et avec peu d’efforts
Dette cognitive du codebase (Codebase Cognitive Debt)
- À mesure que le code généré par l’IA augmente, il devient plus facile d’adopter des solutions sans disposer d’un modèle mental de leur fonctionnement
- Si cet écart de compréhension s’accumule, il devient plus difficile de raisonner sur le système, de le déboguer et de le faire évoluer

Conserver les principes, mais réexaminer les patterns

L’IA ne pousse pas seulement à regarder vers l’avenir, elle amène aussi à revisiter les fondamentaux de l’artisanat logiciel
- Réévaluation de pratiques existantes comme le pair programming, les architectures zero trust, le mutation testing ou les métriques DORA
- Réaffirmation de principes essentiels comme le clean code, la conception intentionnelle, la testabilité et l’accessibilité comme priorités de premier plan
Il ne s’agit pas de nostalgie, mais d’un contrepoids nécessaire face à la vitesse avec laquelle les outils IA génèrent de la complexité
Retour en grâce de la ligne de commande : après des années d’abstraction au service de l’utilisabilité, les outils agentic ramènent les développeurs vers le terminal
Le développement assisté par l’IA constitue une transformation fondamentale des pratiques d’ingénierie, qui impose de repenser la collaboration et la structure des équipes
- Il faut considérer les agent topologies en parallèle des team topologies et redessiner les boucles de feedback
- Des approches comme measuring collaboration quality with coding agents redéfinissent la notion même de développeur logiciel
Dans un environnement piloté par l’IA, la gestion de la dette cognitive devient un enjeu central, et le principe selon lequel « la vitesse sans discipline augmente les coûts » reste essentiel

Les enjeux de sécurité des agents avides de permissions

"Permission hungry" décrit le dilemme fondamental des agents actuels : plus un agent est utile, plus il a besoin d’accéder à tout
- OpenClaw et Claude Cowork supervisent le travail réel
- Gas Town orchestre des essaims d’agents à l’échelle de l’ensemble du codebase
- Ils demandent un accès étendu aux données privées, aux communications externes et aux systèmes réels
Les garde-fous n’ont pas encore rattrapé cette ambition : à cause de l’injection de prompt, les modèles ne parviennent pas à distinguer de façon fiable les commandes de confiance des entrées non fiables
La définition de "lethal trifecta" de Simon Willison — données privées, contenu non fiable et actions externes — ne concerne pas la plupart des agents utiles comme une mauvaise configuration, mais comme état par défaut
Il existe aussi d’autres menaces que l’injection, notamment l’incohérence du comportement des modèles
- Rien ne garantit qu’une tâche réussie une fois réussira de nouveau la fois suivante
- Même sans malveillance, les agents peuvent trouver des voies de fuite créatives, pousser sur des branches qu’ils ne devraient pas toucher et contourner des checkpoints d’approbation/rejet
Ce qu’il est possible de faire aujourd’hui — zero trust, moindre privilège, amélioration des modèles et défense en profondeur — constitue les prérequis de base, mais il n’existe pas de solution unique
Un système d’agents sûr doit être composé non pas d’un agent monolithique, mais d’un pipeline d’agents plus contraints, appuyé par une forte capacité de supervision et de contrôle
- Utiliser Agent Skills comme alternative contrôlable à MCP
- Les durable agents et les techniques de prévention de l’agent instruction bloat indiquent cette direction
Comme cet espace évolue rapidement, la prudence est indispensable pour éviter des erreurs coûteuses

Mettre la bride aux agents de code

À mesure que les performances des agents de code progressent, la tentation de sortir l’humain de la boucle augmente, ce qui pousse les équipes à investir dans des coding agent harnesses
- Des dispositifs de contrôle qui orientent le comportement des agents avant la génération de code et leur permettent ensuite de s’auto-corriger grâce au feedback
Contrôle feedforward
- Fournir à l’avance ce dont l’agent a besoin pour augmenter sa probabilité de réussir du premier coup
- Agent Skills représente une avancée majeure, en modularisant les instructions et les conventions pour les charger au moment nécessaire
- Superpowers est un exemple utile de catalogue de skills pour les équipes logicielles
- L’émergence du concept de plugin marketplaces facilite la distribution des skills et des configurations de contexte
- Les frameworks de spec-driven development — GitHub Spec-Kit, OpenSpec et autres — structurent les workflows de planification, de conception et d’implémentation
Contrôle par feedback
- Observer le comportement de l’agent après action pour créer une boucle d’auto-correction
- feedback sensors for coding agents — des portes de qualité déterministes comme les compilateurs, linters, vérificateurs de types et suites de tests directement intégrés aux workflows des agents
  - En cas d’échec, une correction automatique est déclenchée avant la revue humaine
- Les exemples de ce Radar incluent cargo-mutants et des outils de mutation testing, des outils de fuzz testing comme WuppieFuzz, ainsi que des outils d’analyse de qualité du code comme CodeScene
- Au-delà du feedback dans la boucle, il existe aussi des cas où la combinaison de règles structurelles déterministes et d’une évaluation fondée sur des LLM réduit l’architecture drift

[Techniques]

Adopt

1. Context engineering

Une pratique devenue une préoccupation architecturale centrale des systèmes IA modernes : contrairement au prompt engineering, centré sur la formulation, elle traite la fenêtre de contexte comme une surface de conception et construit délibérément l’environnement informationnel de l’IA
À mesure que les agents prennent en charge des tâches complexes, déverser des données brutes dans de grandes fenêtres de contexte provoque du "context rot" et une baisse des capacités de raisonnement ; on passe ainsi de prompts statiques et monolithiques à la progressive context disclosure
Le context setup utilise le prompt caching pour précharger les instructions statiques afin de réduire les coûts et d’améliorer le temps jusqu’au premier token ; le dynamic retrieval va au-delà du RAG de base avec la sélection d’outils et le chargement des seuls serveurs MCP nécessaires
Les context graphs modélisent le raisonnement institutionnel — politiques, exceptions, précédents — sous forme de données structurées et interrogeables ; la stateful compression et les sous-agents résument les sorties intermédiaires dans les workflows longs
Traiter le contexte IA comme une boîte de texte statique est un raccourci vers les hallucinations ; pour construire des agents d’entreprise robustes, il faut concevoir le contexte comme un pipeline dynamique et géré avec précision

2. Instructions partagées et curées pour les équipes logicielles

Considère comme un antipattern le fait que chaque développeur rédige ses prompts à partir de zéro, et promeut des pratiques qui traitent les consignes IA comme un actif d’ingénierie collaboratif plutôt qu’un workflow personnel
Au départ, l’accent était mis sur la maintenance d’une bibliothèque de prompts génériques pour les tâches communes, mais l’approche a évolué vers une méthode plus avancée consistant à ancrer directement les consignes dans les templates de service
- Des fichiers d’instructions comme CLAUDE.md, AGENTS.md, .cursorrules sont placés dans des dépôts de référence servant de base au scaffolding de nouveaux services
Explore aussi une pratique connexe consistant à ancrer les agents de code sur des applications de référence, une base de code vivante et compilable servant de source unique de vérité
Quand l’architecture et les standards de code évoluent, il est possible de mettre à jour à la fois l’application de référence et les consignes embarquées, et les nouveaux dépôts héritent par défaut des workflows et règles d’agent les plus récents

3. Métriques DORA

Ensemble de métriques défini par le programme de recherche DORA, comprenant le lead time des changements, la fréquence de déploiement, le MTTR, le taux d’échec des changements, ainsi qu’une cinquième nouvelle métrique, le rework rate
Le rework rate est une métrique de stabilité qui mesure la part du pipeline de livraison de l’équipe consommée par la reprise de travaux déjà terminés, comme des bugs ou défauts remontés par les utilisateurs
À l’ère du développement assisté par IA, les métriques DORA sont plus importantes que jamais ; mesurer la productivité au nombre de lignes de code générées par l’IA est trompeur
- Sans réduction du lead time ni hausse de la fréquence de déploiement, une génération de code plus rapide ne conduit pas à de meilleurs résultats
- Une dégradation des métriques de stabilité, en particulier du rework rate, constitue un signal d’alerte précoce sur les angles morts, la dette technique et les risques d’un développement assisté par IA mené sans discernement
Plutôt que de construire des tableaux de bord complexes, des mécanismes simples comme des check-ins pendant les rétrospectives sont plus efficaces pour améliorer les capacités

4. Passkeys

Identifiants FIDO2 pilotés par la FIDO Alliance et pris en charge par Apple, Google et Microsoft, qui utilisent la cryptographie asymétrique à clé publique pour remplacer les mots de passe
La clé privée est stockée dans l’enclave de sécurité matérielle de l’appareil de l’utilisateur, protégée par biométrie ou PIN, et ne quitte jamais l’appareil ; chaque identifiant est lié nativement au domaine du relying party, ce qui lui confère une résistance structurelle au phishing
Le phishing est à l’origine de plus d’un tiers des violations de données ; le FIDO Alliance Passkey Index 2025 fait état de plus de 15 milliards de comptes éligibles dans le monde, Google a amélioré de 30 % le taux de réussite des connexions sur 800 millions d’utilisateurs, et Amazon a validé les connexions 6 fois plus vite qu’avec les méthodes traditionnelles
Le NIST SP 800-63-4 (juillet 2025) requalifie les synced passkeys comme conformes à l’AAL2, et les régulateurs des Émirats arabes unis, de l’Inde et des agences fédérales américaines imposent une authentification résistante au phishing pour les systèmes financiers et gouvernementaux
Le FIDO Credential Exchange Protocol garantit une portabilité sûre entre gestionnaires d’identifiants ; les principaux fournisseurs d’identité comme Auth0, Okta et Azure AD le prennent en charge comme fonctionnalité de premier plan, ce qui simplifie la mise en œuvre, passée de plusieurs mois de travail à un projet de 2 sprints
- Il faut concevoir avec soin la récupération de compte et éviter les chemins de repli exposés au phishing comme les OTP par SMS
- Pour les scénarios AAL3 (comme l’accès à privilèges), des identifiants liés à l’appareil via des clés de sécurité matérielles restent nécessaires

5. Sortie structurée des LLM

Pratique consistant à contraindre le modèle à répondre dans un format prédéfini, comme du JSON ou une classe d’un langage de programmation donné
Fournit des résultats fiables en production et est considérée comme le choix par défaut raisonnable pour les applications qui consomment les réponses des LLM de façon programmatique
Tous les grands fournisseurs de modèles proposent désormais des modes de sortie structurée natifs, mais les sous-ensembles de JSON Schema pris en charge diffèrent et les API évoluent rapidement
La bibliothèque Instructor ou le framework Pydantic AI offrent des abstractions robustes avec validation et retry automatique ; pour la génération contrainte sur des modèles auto-hébergés, Outlines est recommandé

6. Architecture zero trust

Avec l’entrée dans l’ère des agents, elle constitue un choix par défaut raisonnable pour faire face aux risques de sécurité liés à l’octroi d’autonomie à des systèmes imprévisibles
« Ne jamais faire confiance, toujours vérifier » : la sécurité fondée sur l’identité et le principe du moindre privilège doivent être traités comme le socle de tout déploiement d’agents
Appliquer aux agents des standards comme SPIFFE pour établir une base d’identité solide et permettre une authentification fine dans des environnements dynamiques
La surveillance et la vérification continues du comportement des agents sont essentielles pour gérer les menaces de façon proactive
Au-delà des déploiements d’agents, des pratiques comme l’OIDC impersonation de GCP peuvent aussi être introduites dans des pipelines CI/CD, en remplaçant les clés statiques de longue durée par des jetons de courte durée émis après vérification d’identité
Il est recommandé de traiter les principes ZTA comme un défaut non négociable, quel que soit le système construit

Trial

7. Agent Skills

À mesure que les agents IA évoluent d’interfaces de chat simples vers l’exécution autonome de tâches, le context engineering devient un enjeu central ; Agent Skills fournit un standard ouvert pour la modularisation du contexte en empaquetant des ressources pertinentes comme des consignes, des scripts exécutables et de la documentation
Les agents ne chargent les skills qu’en cas de besoin, sur la base de leur description, ce qui réduit la consommation de tokens et atténue l’épuisement de la fenêtre de contexte ainsi que le problème d’agent instruction bloat
L’adoption s’accélère non seulement pour les agents de code, mais aussi pour des assistants personnels comme OpenClaw ; beaucoup de cas d’usage peuvent être résolus efficacement en faisant simplement pointer l’agent vers un CLI local ou des scripts, ce qui explique en partie pourquoi les équipes deviennent plus prudentes dans l’usage par défaut de MCP
Des plugin marketplaces émergent comme moyen de versionner et partager les skills, tandis que de nombreuses expérimentations cherchent comment évaluer leur efficacité
La réutilisation sans revue de skills tiers peut créer de graves risques de sécurité de la supply chain, d’où la nécessité d’être vigilant

8. Tests de composants dans le navigateur

Par le passé, les outils basés sur navigateur n’étaient pas recommandés (configuration difficile, lenteur, caractère flaky), mais ils se sont aujourd’hui nettement améliorés et constituent, avec des outils comme Playwright, une approche viable et préférable
Exécuter les tests dans un vrai navigateur garantit que le code s’exécute dans le même environnement que celui de production, offrant une cohérence plus élevée
La baisse de performance est devenue acceptable, et la flakiness a aussi diminué, apportant plus de valeur qu’un environnement émulé comme jsdom

9. Capteurs de feedback pour les agents de code

Pour rendre les agents de code plus efficaces et réduire la charge des relecteurs humains, il faut des boucles de feedback directement accessibles aux agents, ce feedback agissant comme une forme de backpressure
Les développeurs s’appuient depuis longtemps sur des garde-fous qualité déterministes comme les compilateurs, linters, tests structurels et suites de tests ; les connecter aux workflows agentiques permet de déclencher une auto-correction en temps utile en cas d’échec
Différentes implémentations sont possibles, comme l’introduction d’un agent relecteur chargé d’exécuter les vérifications et de déclencher les corrections, ou l’exposition de ces contrôles via un processus compagnon exécuté en parallèle
Grâce aux agents de code, le coût de construction de linters personnalisés et de tests structurels a baissé, ce qui renforce les boucles de feedback
Si possible, ces vérifications doivent être exécutées pendant la session de code plutôt qu’après le commit, afin que l’agent puisse présenter un résultat propre avant le commit

10. Mapping code smells to refactoring techniques

Technique consistant à demander à l’agent de traiter un problème précis selon une approche définie
La première couche guide l’agent à l’aide de références générales comme Refactoring pour les cas courants ; pour les problèmes plus spécialisés, Agent Skills, les slash commands et AGENTS.md permettent d’associer des smells spécifiques à des techniques particulières
Intégrée à des outils de linting, elle produit un feedback déterministe qui déclenche l’approche de refactoring appropriée à chaque détection de smell
Particulièrement efficace sur des stacks legacy comme .NET Framework 2.0 ou Java 8, utile lorsque les données d’entraînement générales sont insuffisantes
Sans instruction ciblée, les agents ont tendance à revenir par défaut à des schémas généraux plutôt qu’à des exigences spécifiques

11. Mutation testing

Le signal le plus honnête pour évaluer la capacité réelle d’une suite de tests à détecter des défauts ; contrairement à la couverture de code traditionnelle qui se contente de suivre l’exécution des lignes, il introduit des bugs intentionnels (mutations) dans le code source et vérifie que les tests échouent lorsque le comportement est altéré
Si une mutation n’est pas détectée, cela révèle un manque dans la validation, et non un simple déficit de couverture ; c’est particulièrement important à l’ère du développement assisté par IA — une couverture élevée peut masquer des tests logiquement creux ou du code généré sans assertions significatives
Avec la généralisation des cas de test générés par l’IA, cela ajoute une couche de renforcement pour repérer les tests « perpétuellement verts » qui passent indépendamment des changements de logique à cause d’assertions manquantes ou de mocks isolés
Des outils comme Stryker, Pitest, cargo-mutants recentrent l’attention sur la part du code réellement validée dans la logique métier centrale

12. Progressive context disclosure

Technique relevant de la pratique du context engineering, qui consiste à donner à l’agent une phase légère de découverte lui permettant de sélectionner ce dont il a besoin à partir du prompt utilisateur, au lieu de le submerger d’instructions à l’avance
Bien adaptée aux scénarios RAG, où l’agent identifie d’abord le domaine pertinent à partir de la requête utilisateur avant de récupérer les instructions et les données spécifiques
C’est aussi ainsi que de nombreux outils de codage agentique traitent les Agent Skills : plutôt qu’un jeu d’instructions monolithique unique rempli de conditions et de précautions, ils déterminent d’abord les skills pertinents pour la tâche, puis chargent les instructions détaillées
Lors de la conception de systèmes agentiques, il est facile de tomber dans le piège qui consiste à gonfler les instructions avec une succession sans fin de règles « DO » et « DO NOT », ce qui finit par dégrader les performances
Elle permet de conserver une fenêtre de contexte concise et d’éviter le context rot

13. Sandboxed execution for coding agents

Pratique consistant à exécuter les agents dans un environnement isolé, avec un accès limité au système de fichiers, une connectivité réseau contrôlée et un usage restreint des ressources
À mesure que les agents de codage gagnent en autonomie pour exécuter du code, lancer des builds et interagir avec le système de fichiers, un accès illimité crée des risques bien réels, allant de dommages accidentels à l’exposition d’identifiants ; c’est un réglage par défaut raisonnable, pas une amélioration facultative
Le spectre des options de sandboxing est large — beaucoup d’agents de codage proposent un mode sandbox intégré, et les Dev Containers offrent une isolation familière fondée sur des conteneurs
Shuru démarre une microVM éphémère réinitialisée à chaque exécution, tandis que Sprites fournit un environnement avec état prenant en charge les checkpoints et la restauration
Pour l’isolation native sous Linux, Bubblewrap fournit un sandboxing léger basé sur les namespaces ; sur macOS, sandbox-exec offre une protection similaire
Au-delà de l’isolation de base, il faut aussi prévoir tout le nécessaire pour build et tester, une authentification sûre et simple vers des services comme GitHub et les fournisseurs de modèles, le port forwarding, ainsi que des ressources CPU et mémoire suffisantes
Décider si le sandbox doit être éphémère par défaut ou persistant pour permettre la reprise de session relève d’un choix de conception fondé sur les priorités en matière de sécurité, de coût et de continuité du workflow

14. Semantic layer

Technique d’architecture data qui introduit une couche de logique métier partagée entre les entrepôts de données et les applications consommatrices comme les outils de BI, les agents IA et les API
Elle centralise la définition des métriques, les jointures, les règles d’accès et les termes métier afin que les consommateurs partagent les mêmes définitions ; le concept est antérieur à la modern data stack, mais suscite un regain d’intérêt grâce à des approches code-first comme les metrics stores
Sans semantic layer, la logique métier se disperse entre des tables d’entrepôt ad hoc, des dashboards et des applications downstream, et les définitions de métriques divergent discrètement
Le problème s’aggrave avec l’IA agentique — les traductions text-to-SQL naïves par LLM produisent souvent des résultats erronés, en particulier lorsque des règles métier comme la reconnaissance du revenu se trouvent hors du schéma
Les plateformes cloud commencent à intégrer directement une semantic layer : Snowflake parle de Semantic Views, Databricks de Metric Views, tandis que des outils indépendants comme dbt MetricFlow et Cube fournissent une couche portable entre systèmes
La sortie récente de Open Semantic Interchange (OSI) v1.0, soutenue par de nombreux éditeurs, signale une progression de la standardisation et de l’interopérabilité à travers les plateformes d’analytics, d’IA et de BI
Son principal coût réside dans l’investissement initial de modélisation des données ; il est recommandé de commencer par un seul domaine plutôt que de viser un déploiement à l’échelle de toute l’entreprise

15. Server-driven UI

Approche qui dissocie le rendu en conteneurs génériques et laisse le serveur fournir la structure et les données, permettant aux équipes mobiles d’éviter les longs cycles de revue des app stores à chaque itération
En s’appuyant sur des formats basés sur JSON pour activer des mises à jour en temps réel, elle améliore fortement le time-to-release ; la complexité diminue à mesure qu’émerge un pattern plus stable dans des entreprises comme Airbnb et Lyft
Auparavant, elle s’accompagnait d’un avertissement contre le « chaos horrible et excessivement configurable » que peuvent créer des frameworks propriétaires, mais l’investissement se justifie désormais plus facilement dans les applications à grande échelle
Elle exige toujours un business case solide et une ingénierie disciplinée ; il est important d’éviter de créer un « god-protocol » difficile à maintenir
Son usage est recommandé pour des zones hautement dynamiques plutôt que comme remplacement de tout le développement UI de l’application

Assess

16. Environnements de reinforcement learning agentiques

Terrain d’entraînement pour des agents basés sur des LLM, combinant contexte, outils et feedback pour mener à bien des tâches en plusieurs étapes
Cette approche reconfigure le post-entraînement des LLM, qui passe d’une simple sortie en un seul tour à des comportements agentiques comme le raisonnement et l’usage d’outils, avec attribution d’une récompense ou d’une pénalité à chaque action
Des techniques comme RLVR garantissent que la récompense est vérifiable et résistante à la « gamification »
Les laboratoires de recherche en IA mènent actuellement le développement, notamment pour les agents de codage et d’utilisation de l’ordinateur ; Composer de Cursor constitue un exemple hors des frontier labs, avec un modèle de codage spécialisé entraîné dans un environnement produit
L’émergence de frameworks et de plateformes comme Environments Hub de Prime Intellect, Agent Lightning et NVIDIA NeMo Gym simplifie le processus

17. Réduction de la dérive architecturale avec les LLM

Avec l’augmentation de l’usage d’agents de codage IA, la dérive par rapport à la base de code et à l’architecture prévues s’accélère ; sans intervention, agents et humains reproduisent les schémas existants, y compris les dégradés, ce qui aggrave la dérive et crée une boucle de rétroaction où un mauvais code engendre un code encore pire
La combinaison d’outils d’analyse déterministes (Spectral, ArchUnit, Spring Modulith) et d’une évaluation fondée sur les LLM permet de détecter à la fois les violations structurelles et sémantiques
Application à la définition de zones d’architecture permettant d’imposer des directives de qualité d’API à l’échelle des services et d’orienter l’amélioration de ce que génèrent les agents
Comme avec le linting traditionnel, un premier scan fait remonter de nombreuses violations → besoin de classification et de priorisation, ce à quoi les LLM peuvent aider
Garder les corrections générées par les agents petites et ciblées pour faciliter la revue, avec une boucle de validation supplémentaire indispensable pour vérifier que les changements améliorent le système sans régression
Étend l’idée des feedback sensors for coding agents aux étapes plus tardives du cycle de livraison ; selon l’expression de l’équipe OpenAI, la réduction de la dérive fonctionne comme une forme de « garbage collection »

18. L’intelligence du code comme outillage agentique

Les LLM traitent le code comme un flux de tokens et n’ont aucune compréhension native des graphes d’appels, des hiérarchies de types ou des relations entre symboles
Pour l’exploration du code, la plupart des agents de codage actuels utilisent par défaut une recherche textuelle, le plus petit dénominateur commun le plus puissant à travers tous les langages ; pour des refactorings qui se font en un raccourci rapide dans l’IDE, les agents doivent générer plusieurs diff textuels
Les agents consomment une quantité significative de tokens à reconstituer des informations déjà présentes dans l’AST
Donner aux agents accès à des outils conscients de l’AST, par exemple via le Language Server Protocol (LSP), afin d’exécuter comme actions de premier ordre des opérations telles que « trouver toutes les références à ce symbole » ou « renommer ce type partout »
Des outils de codemod comme OpenRewrite opèrent sur une représentation du code plus riche, le Lossless Semantic Tree (LST) ; déléguer correctement les tâches à des outils déterministes réduit les modifications hallucinées et la consommation de tokens
Claude Code, OpenCode et d’autres s’intègrent à des serveurs LSP exécutés en local ; JetBrains propose un serveur MCP qui expose la navigation et le refactoring de l’IDE à des agents externes, et le serveur MCP Serena fournit une recherche et une édition de code sémantiques

19. Graphe de contexte

Technique de représentation des connaissances qui modélise décisions, politiques, exceptions, précédents, preuves et résultats comme des nœuds reliés de premier ordre dans un graphe, structurés pour être consommés par l’IA
Si les systèmes d’enregistrement capturent ce qui s’est passé, le graphe de contexte capture le pourquoi — en transformant les raisonnements organisationnels enfouis dans des fils Slack, des chaînes d’approbation et la tête des personnes en une structure interrogeable et lisible par machine
Essentiel à l’efficacité des agents : par exemple, un agent qui traite une exception de remise peut mal raisonner s’il ne peut pas déterminer s’il s’agit d’une politique standard ou d’un contournement ponctuel ; le graphe de contexte expose directement la provenance, ce qui permet de parcourir la trace de décision, d’appliquer des précédents pertinents et de raisonner sur des chaînes causales à plusieurs sauts
Contrairement à GraphRAG, construit à partir de corpus documentaires statiques, le graphe de contexte maintient une validité temporelle sur chaque arête ; les faits remplacés ne sont pas écrasés mais invalidés
À évaluer pour les applications agentiques qui ont besoin d’une mémoire persistante entre sessions ou d’un raisonnement décisionnel traçable

20. Feedback flywheel

Les équipes qui travaillent avec des agents de codage adoptent de plus en plus des workflows de spec-driven development et suivent, quel que soit le framework léger ou plus prescriptif, un flux spec → plan → implement
Le Feedback flywheel étend ce flux avec une étape supplémentaire centrée sur l’amélioration continue du harness des agents de codage
À la manière d’une rétrospective, l’équipe capture les réussites et les échecs survenus pendant les sessions avec les agents de codage pour améliorer la prévisibilité des sessions futures, avec un effet cumulatif au fil du temps
Technique méta où le human on the loop se concentre sur l’amélioration des contrôles en feedforward, comme les curated shared instructions et les feedback sensors for coding agents
Le niveau suivant est le agentic feedback flywheel, dans lequel les agents décident des améliorations nécessaires sur la base du feedback accumulé ; à ce stade, un human-in-the-loop reste toutefois nécessaire pour éviter le context rot et les feedbacks bruités susceptibles d’induire les agents en erreur
À utiliser pour évaluer l’ensemble du harness des agents de codage à mesure que l’environnement évolue, en particulier lors de l’adoption de nouveaux modèles, car ce qui fonctionnait avec un modèle peut devenir inutile avec le suivant

21. HTML Tools

avec les outils agentiques, il devient facile de créer de petits utilitaires dédiés à des tâches précises ; le principal enjeu est désormais la manière de les déployer et de les partager
HTML Tools propose une approche consistant à packager des scripts ou utilitaires partageables dans un unique fichier HTML
exécution directe dans le navigateur, hébergement n’importe où ou simple partage du fichier, ce qui évite la surcharge de distribution des outils CLI nécessitant le partage de binaires ou l’usage d’un gestionnaire de paquets
plus simple que de construire une application web complète avec un hébergement dédié
du point de vue de la sécurité, l’exécution de fichiers non fiables reste risquée, même si la sandbox du navigateur et la possibilité d’inspecter le code source apportent une atténuation partielle
pour des utilitaires légers, un unique fichier HTML offre une méthode très accessible et portable

22. Évaluation des LLM à l’aide de l’entropie sémantique

dans les applications de QA basées sur des LLM, la confabulation — une forme d’hallucination — est difficile à traiter avec les méthodes d’évaluation traditionnelles
une approche consiste à utiliser l’entropie de l’information pour mesurer l’incertitude en analysant les variations lexicales des sorties pour une entrée donnée
l’évaluation des LLM avec l’entropie sémantique étend cette idée en se concentrant sur les différences de sens plutôt que sur les variations de surface
comme elle évalue le sens plutôt que des séquences de mots, elle peut s’appliquer à des jeux de données et à des tâches variés sans connaissance préalable, et se généralise bien aux tâches inconnues
elle aide à identifier les prompts susceptibles de provoquer de la confabulation et à recommander de la prudence lorsque nécessaire
l’entropie naïve échoue souvent à détecter la confabulation ; l’entropie sémantique est plus efficace pour filtrer les affirmations erronées

23. Mesurer la qualité de la collaboration avec des agents de codage

l’usage d’agents de codage montre des gains de productivité réels, mais la plupart des métriques d’évaluation restent encore trop focalisées sur le coding throughput : temps jusqu’à la première sortie, nombre de lignes de code générées ou tâches terminées
pour éviter que les équipes ne tombent dans le piège de la vitesse, il faut recentrer l’attention sur l’efficacité de la collaboration entre humains et agents
des métriques comme le first-pass acceptance rate, le nombre de cycles d’itération par tâche, le retravail après fusion, les builds en échec ou la charge de review donnent des signaux plus pertinents que la seule vitesse
les équipes utilisant Claude Code peuvent générer avec la commande /insights des rapports sur le succès des sessions d’agents et leur prise en compte des consignes ; elles expérimentent aussi le suivi du first-pass acceptance via une commande /review personnalisée
des boucles de feedback plus courtes et une baisse des builds en échec sont des indicateurs d’interactions plus efficaces avec les agents
au niveau de l’équipe, et non de l’individu, le suivi de la qualité de la collaboration avec les métriques DORA permet de dresser un tableau plus complet de l’adoption des agents de codage

24. MITRE ATLAS

les systèmes agentiques et les outils de codage introduisent de nouvelles architectures et des menaces de sécurité émergentes
MITRE ATLAS est une base de connaissances sur les tactiques et techniques adverses ciblant les systèmes d’IA et de ML
plus ciblé et conçu comme complément du cadre plus large MITRE ATT&CK, il fournit une classification des menaces visant les pipelines ML, les applications LLM et les systèmes agentiques
sans vocabulaire partagé, les risques de sécurité sont souvent négligés ou réduits à un simple exercice de cases à cocher ; ATLAS aide à éviter cela
fondé sur l’étude d’incidents réels et de schémas techniques, il peut être utilisé par les équipes comme cadre de support à la modélisation des menaces
il constitue un complément naturel à des cadres de contrôle comme SAIF et aide à décrire le paysage évolutif des menaces visant les systèmes d’IA

25. Ralph loop

technique d’agent de codage autonome, également appelée Wiggum loop, qui consiste à alimenter l’agent avec un prompt fixe dans une boucle infinie
chaque itération démarre avec une nouvelle fenêtre de contexte — l’agent choisit une tâche à partir de la spécification ou du plan, l’implémente, puis relance la boucle avec un nouveau contexte
l’idée clé est la simplicité : au lieu d’orchestrer des teams of coding agents ou des coding agent swarms, un agent unique travaille de manière autonome à partir d’une spécification, avec l’espoir que le codebase converge vers celle-ci au fil des itérations
l’usage d’une nouvelle fenêtre de contexte à chaque itération permet d’éviter la dégradation de qualité liée à l’accumulation du contexte, au prix d’un coût en tokens important
des outils comme goose implémentent ce modèle, parfois étendu par des revues croisées entre modèles d’une itération à l’autre

26. Reverse engineering pour un design system

les organisations sont souvent confrontées à des interfaces legacy fragmentées où les « standards de design » ne sont guère plus qu’une collection disparate de pages web, supports marketing et captures d’écran
historiquement, auditer ces artefacts pour construire une base unifiée était un processus manuel et chronophage
les LLM multimodaux permettent d’automatiser cette extraction et de faire efficacement le reverse engineering d’un design system à partir d’actifs visuels existants
en alimentant des sites web, des captures d’écran et des fragments d’UI dans des outils spécialisés ou des modèles d’IA capables de vision, les équipes peuvent extraire les design tokens clés — comme les palettes de couleurs, échelles typographiques et règles d’espacement — et identifier les motifs de composants récurrents
l’IA synthétise ces données visuelles non structurées en une représentation structurée et sémantique du design system ; intégrée à des outils comme Figma, cette sortie accélère fortement la création de bibliothèques de composants formalisées et maintenables
au-delà de la réduction de l’effort d’audit visuel, cette approche sert aussi de tremplin vers la construction de design systems « AI-ready »
pour les entreprises grevées par une dette de design brownfield, utiliser l’IA pour établir un design system de référence constitue un point de départ pragmatique avant une refonte complète ou une standardisation du front-end

27. Isolation contextuelle basée sur les rôles dans le RAG

technique architecturale qui déplace le contrôle d’accès de la couche applicative vers la couche de recherche
au moment de l’indexation, tous les chunks de données reçoivent des tags d’autorisation basés sur les rôles ; au moment de la requête, le moteur de recherche limite l’espace de recherche en fonction de l’identité authentifiée de l’utilisateur et fait correspondre ces tags aux métadonnées de chaque chunk
comme le modèle d’IA est filtré dès l’étape de recherche, cela garantit qu’il ne peut pas accéder à un contexte non autorisé et fournit une base zero trust pour les bases de connaissances internes
de nombreuses bases de données vectorielles, comme Milvus ou des services basés sur Amazon S3, prennent en charge le filtrage de métadonnées haute performance, ce qui rend l’adoption pratique même pour de grandes bases de connaissances

28. Les skills comme documentation d’onboarding exécutable

Agent Skills, les instructions partagées organisées et d’autres techniques de context engineering apparaissent dans l’ensemble de ce Radar ; dans le contexte du code, le cas d’usage à mettre en avant est celui des skills comme documentation d’onboarding exécutable
Applicables à plusieurs niveaux ; dans une codebase, un skill /_setup peut remplir le rôle d’un script go.sh et d’un fichier README, en combinant des sémantiques d’exécution LLM avec des scripts pour les étapes qui ne peuvent pas être scriptées
Au-delà de ce que peuvent faire les scripts, ils peuvent prendre en compte dynamiquement l’état actuel de la codebase et de l’environnement
Les créateurs de bibliothèques et d’API peuvent fournir des skills à leurs utilisateurs comme partie de la documentation, via des registres de skills internes ou externes (comme Tessl)
Utile pour l’onboarding sur la plateforme interne d’une équipe, pour abaisser la barrière d’usage des technologies clés ou réduire les frictions lors de l’adoption d’un design system ; jusqu’ici, l’approche reposait beaucoup sur des serveurs MCP, mais elle bascule désormais vers les skills
Comme pour toute autre forme de documentation, le défi de la maintenir à jour ne disparaît pas ; toutefois, la documentation exécutable aide à repérer bien plus tôt l’obsolescence qu’une documentation statique

29. Small language models

Les SLM continuent de progresser et commencent, pour certains cas d’usage, à offrir une meilleure intelligence par dollar que les LLM
Les équipes évaluent les SLM pour réduire les coûts d’inférence et accélérer les workflows agentiques ; les avancées récentes montrent des gains réguliers en densité d’intelligence, ce qui les rend compétitifs face à d’anciens LLM sur des tâches comme le résumé et le codage de base
Cela reflète un basculement du « plus gros est mieux » vers des données de meilleure qualité, la distillation de modèle et la quantification
Des modèles comme Phi-4-mini et Ministral 3 3B montrent que les modèles distillés conservent une grande partie des capacités de modèles enseignants plus volumineux
Même des modèles ultra-compacts comme Qwen3-0.6B et Gemma-3-270M peuvent désormais tourner sur des edge devices
Pour les cas d’usage agentiques où d’anciens LLM suffisaient, considérer les SLM comme une alternative à faible coût, faible latence et aux besoins en ressources réduits

30. Team of coding agents

Décrit dans un précédent Radar comme une technique où les développeurs coordonnent un petit groupe d’agents spécialisés par rôle pour collaborer sur des tâches de développement
Depuis, la barrière à l’adoption a baissé ; le support des sous-agents est devenu une fonctionnalité de base dans l’ensemble des outils d’agents de codage existants, y compris la fonctionnalité agent teams, qui fournit une orchestration intégrée dans Claude Code
Dans une équipe d’agents, l’orchestrateur principal gère généralement le séquençage et la parallélisation des tâches, et les agents doivent pouvoir communiquer non seulement avec l’orchestrateur, mais aussi entre eux
Cas d’usage typiques : une équipe de relecteurs ou un groupe d’implémenteurs chargé de différentes parties d’une application, comme le back-end et le front-end
Une partie du secteur emploie de manière interchangeable « agent teams » et « agent swarms » (Claude Code décrit sa fonctionnalité agent teams comme « our implementation of swarms »), mais la distinction garde de la valeur
Le fait qu’une petite équipe d’agents, de manière intentionnelle, collabore sur une tâche diffère sensiblement d’un grand swarm en termes de barrière d’entrée, de complexité et de cas d’usage

31. Temporal fakes

Extension de l’idée de simulation de systèmes du monde réel, utilisée depuis longtemps dans les plateformes IoT et industrielles
Les agents IA de codage réduisent l’effort nécessaire pour construire des simulateurs, ce qui permet de créer bien plus facilement des répliques haute fidélité de dépendances externes
Contrairement aux mocks traditionnels qui renvoient des paires requête-réponse statiques, les temporal fakes maintiennent une machine d’état interne et modélisent l’évolution temporelle du système réel
Une équipe a utilisé cette technique pour développer une stack d’observabilité pour un grand data center GPU, évitant ainsi l’approvisionnement en matériel physique
- Tester des règles d’alerte, des tableaux de bord et la détection d’anomalies sur le système réel est peu pratique (par exemple, faire volontairement surchauffer un GPU pour valider une alerte de thermal throttle)
- À la place, elle a construit en Go des fakes pour des domaines matériels comme NVIDIA DCGM et le fabric InfiniBand
- Avec ces simulateurs, elle a pu déclencher des scénarios de panne comme le thermal throttling, des tempêtes d’erreurs XID, des link flaps ou des défaillances d’alimentation, avec une intensité et une durée configurables, le tout orchestré via une stack process-compose
Un registre central définit les scénarios de panne valides, et un serveur MCP expose l’injection de scénarios aux agents
Les agents peuvent déclencher un défaut, par exemple injecter un thermal throttle sur un GPU donné, puis vérifier que les métriques évoluent comme prévu, que les alertes se déclenchent et que les tableaux de bord se mettent à jour
Cette fidélité temporelle donne de la valeur à la technique pour tester des systèmes complexes où les pannes s’enchaînent, mais si le fake n’est pas fidèle au comportement réel, il existe un risque de générer une fausse confiance dans des pipelines automatisés

32. Toxic flow analysis for AI

Les capacités des agents dépassent le rythme des pratiques de sécurité ; l’émergence d’agents gourmands en permissions comme OpenClaw pousse davantage d’équipes à déployer des agents dans des environnements exposés à la lethal trifecta — accès à des données privées, exposition à des contenus non fiables et capacité de communication externe
À mesure que les capacités augmentent, la surface d’attaque augmente aussi, exposant les systèmes à des risques comme la prompt injection et l’empoisonnement d’outils
La toxic flow analysis reste reconnue comme une technique clé pour examiner les systèmes agentiques et identifier les chemins de données non sûrs ainsi que les vecteurs d’attaque potentiels
Le risque ne se limite plus aux intégrations MCP ; des schémas similaires sont aussi observés dans Agent Skills — un acteur malveillant peut empaqueter un skill en apparence utile, mais intégrant des instructions cachées pour exfiltrer des données sensibles
Il est fortement recommandé aux équipes travaillant sur des agents d’effectuer une toxic flow analysis et d’utiliser des outils comme Agent Scan afin d’identifier les chemins de données non sûrs avant toute exploitation

33. Vision language models pour l’analyse de documents de bout en bout

L’analyse de documents repose sur des pipelines multiétapes combinant détection de mise en page, OCR traditionnel et scripts de post-traitement, avec des difficultés face aux mises en page complexes et aux formules mathématiques
L’analyse de documents de bout en bout avec des VLM traite l’image du document comme une modalité d’entrée unique, ce qui simplifie l’architecture tout en préservant un ordre de lecture naturel et un contenu structuré
Des modèles open source spécialement entraînés pour cet usage, comme olmOCR-2, le modèle économe en tokens DeepSeek-OCR (3B) ou le très compact PaddleOCR-VL, produisent des résultats très efficaces
Même si les VLM peuvent remplacer les pipelines multiétapes et réduire la complexité architecturale, leur nature générative les rend sujets aux hallucinations
Les cas d’usage qui tolèrent peu les erreurs nécessitent encore une approche hybride ou un OCR déterministe
Les équipes qui traitent de vastes collectes de documents doivent évaluer cette approche intégrée pour déterminer si elle peut réduire la charge de maintenance à long terme tout en préservant la précision

Caution

34. Agent instruction bloat

Des fichiers de contexte comme AGENTS.md ou CLAUDE.md s’accumulent au fil du temps avec des aperçus du codebase, des explications d’architecture, des conventions et des règles
Chaque ajout est utile pris isolément, mais cela entraîne souvent un agent instruction bloat, avec des consignes plus longues et parfois contradictoires
Les modèles ont tendance à moins prêter attention aux éléments enfouis au milieu de longs contextes, et des consignes placées profondément dans un long historique de conversation peuvent être ignorées
À mesure que les instructions augmentent, la probabilité que des règles importantes soient ignorées augmente
De nombreuses équipes utilisent l’IA pour générer des fichiers AGENTS.md, mais des recherches suggèrent que des versions rédigées à la main sont souvent plus efficaces que celles générées par des LLM
Lors de l’utilisation d’outils agentiques, il faut être intentionnel et sélectif sur les consignes, les ajouter selon les besoins et les affiner en continu pour conserver un ensemble minimal et cohérent
Envisagez d’utiliser la progressive context disclosure pour ne faire remonter que les consignes et capacités nécessaires à la tâche en cours

35. Shadow IT accéléré par l’IA

L’IA continue d’abaisser la barrière permettant aux non-codeurs de construire des systèmes complexes, ce qui rend possibles l’expérimentation et la validation précoce des besoins, mais introduit aussi le risque d’un shadow IT accéléré par l’IA
Au-delà des plateformes de workflow no-code intégrant des API d’IA (comme OpenAI ou Anthropic), davantage d’outils agentiques comme Claude Cowork sont mis à disposition des non-codeurs
Quand des feuilles de calcul qui faisaient tourner l’activité discrètement évoluent en workflows agentiques sur mesure sans gouvernance, cela introduit d’importants risques de sécurité et la prolifération de solutions concurrentes pour des problèmes similaires
La clé de l’équilibre entre expérimentation et contrôle consiste à distinguer les workflows ponctuels des processus critiques qui nécessitent une implémentation durable et prête pour la production
Dans le cadre de leur stratégie d’adoption de l’IA, les organisations doivent donner la priorité à la gouvernance tout en favorisant l’expérimentation dans des environnements contrôlés
Un sandbox interne correctement instrumenté peut offrir aux non-codeurs un lieu de déploiement pour des prototypes dont l’usage peut être suivi
Associé à un catalogue partagé des workflows existants, cela aide les équipes à découvrir ce qui a déjà été construit et à éviter les efforts en double

36. Dette cognitive du codebase

Il s’agit du fossé croissant entre l’implémentation d’un système et la compréhension partagée par l’équipe de son fonctionnement et de ses raisons d’être
Alors que l’IA accélère le rythme des changements, les équipes peuvent perdre la trace de l’intention de conception et des couplages cachés, en particulier avec de multiples contributeurs ou des Coding Agent Swarms
Combiné à une dette technique croissante, cela crée une boucle de renforcement qui rend le système de plus en plus difficile à raisonner
Une faible compréhension du système réduit la capacité des développeurs à guider efficacement l’IA, à anticiper les edge cases et à éloigner les agents des pièges architecturaux
Si elle n’est pas gérée, on atteint un point de bascule où de petits changements déclenchent des défaillances imprévues, les corrections introduisent des régressions et les efforts de remise en ordre augmentent le risque au lieu de le réduire
Il faut éviter la complaisance face au code généré par l’IA et introduire des contre-mesures explicites — feedback sensors for coding agents, suivi de la charge cognitive des équipes, fonctions de fitness architecturales — afin de continuer à faire respecter les contraintes clés à mesure que l’IA accélère la production

37. Coding agent swarms

Si une team of coding agents est un petit groupe intentionnel, un coding agent swarm applique des dizaines à des centaines d’agents à un problème, l’IA décidant dynamiquement de leur composition et de leur taille
Des projets comme Gas Town et Ruflo (anciennement Claude Flow) en sont de bons exemples
Les premiers schémas d’implémentation de swarms émergent — séparation hiérarchique des rôles (orchestrateur, superviseur, workers temporaires), registre de tâches persistant aidant les agents à découper et coordonner le travail (Gas Town utilise beads), mécanismes de fusion pour gérer les conflits liés au travail en parallèle
Deux expériences de swarm sont particulièrement remarquables — la génération d’un compilateur C par Anthropic et l’expérience de passage à l’échelle des agents de Cursor (génération d’un navigateur sur une semaine)
Les deux équipes ont choisi des cas d’usage pouvant s’appuyer sur des spécifications détaillées existantes, avec dans le cas du compilateur C une suite de tests complète fournissant un feedback clair et mesurable
Ces conditions ne représentent pas un développement produit typique, où les exigences sont moins définies et la validation plus difficile
Malgré cela, ces expériences contribuent à l’émergence de schémas qui rendent techniquement viables les swarms de longue durée d’exécution ; cela reste coûteux et encore loin d’être mature, d’où une recommandation de prudence dans l’adoption

38. Le débit de code comme mesure de la productivité

Les assistants de codage IA apportent de réels gains de productivité et s’imposent rapidement comme des outils standard pour les développeurs
Cependant, de plus en plus d’organisations mesurent le succès à l’aide d’indicateurs superficiels comme le nombre de lignes de code générées ou de pull requests (PR)
Lorsqu’elles sont utilisées de manière isolée, ces métriques de coding throughput peuvent avoir un impact négatif sur le comportement des employés
Le résultat est souvent un déluge de code mal aligné qui ralentit les revues, nuit au débit de livraison et introduit des risques de sécurité ; les ingénieurs ouvrent des PR remplies de sorties IA insuffisamment revues, ce qui augmente le cycle time à cause des allers-retours répétés avec les relecteurs
Ces métriques ne parviennent pas à capturer l’effort résiduel nécessaire pour adapter le code généré par l’IA à l’architecture, aux conventions et aux patterns de l’équipe
Il existe des indicateurs avancés plus pertinents — le first-pass acceptance rate, c’est-à-dire la fréquence à laquelle une sortie IA peut être utilisée avec un minimum de retouches
Le mesurer permet de révéler l’effort caché et de rendre possibles des actions d’amélioration ; les équipes peuvent ainsi augmenter durablement l’acceptation en affinant les prompts, en améliorant la documentation de priming et en renforçant les échanges autour du design
Cela crée un cercle vertueux où les sorties IA nécessitent moins de modifications ; le first-pass acceptance rate se relie naturellement aux métriques DORA — un faible taux d’acceptation tend à accroître le taux d’échec des changements, tandis que les cycles d’itération répétés allongent le lead time des changements
À mesure que les assistants IA se généralisent, les organisations doivent déplacer leur attention du seul coding throughput vers des métriques qui reflètent l’impact réel et les résultats de livraison

39. Ignorer la durabilité dans les workflows d’agents

Un antipattern observé dans plusieurs équipes, qui fonctionne en développement mais échoue en production
Les défis auxquels sont confrontés les systèmes distribués deviennent encore plus marqués lors de la construction d’agents ; anticiper les pannes et récupérer avec élégance est supérieur à une approche réactive
Les LLM et les appels d’outils peuvent échouer à cause de coupures réseau ou de crashs serveur, interrompant la progression de l’agent et entraînant une mauvaise expérience utilisateur ainsi qu’une hausse des coûts opérationnels
Certains systèmes peuvent tolérer cela lorsque les tâches sont de courte durée, mais les workflows complexes qui s’exécutent pendant plusieurs jours ou semaines ont besoin de durabilité
Des frameworks d’agents comme LangGraph et Pydantic AI intègrent une exécution durable
Ils offrent une persistance de l’état pour la progression et les appels d’outils, permettant à l’agent de reprendre son travail après un échec
Dans les workflows avec human in the loop, l’exécution durable peut suspendre la progression en attendant une entrée
Des plateformes de durable computing comme Temporal, Restate et Golem proposent également un support pour les agents
L’observabilité du suivi des décisions et de l’exécution des outils intégrés facilite le débogage et améliore la compréhension des systèmes en production
Commencez par le support natif d’exécution durable dans les frameworks d’agents, puis utilisez une plateforme indépendante lorsque les workflows deviennent plus critiques ou plus complexes

40. MCP par défaut

Le Model Context Protocol (MCP) attire l’attention, et les équipes comme les éditeurs ont tendance à l’adopter comme couche d’intégration par défaut entre les agents IA et les systèmes externes, même lorsqu’il existe des alternatives plus simples
Il faut faire preuve de prudence avec l’usage de MCP par défaut ; MCP apporte une vraie valeur via des contrats d’outils structurés, des frontières d’authentification fondées sur OAuth et un accès multitenant gouverné
Mais cela introduit aussi ce que Justin Poehnelt appelle une « abstraction tax » — chaque couche de protocole entre l’agent et l’API entraîne une perte de fidélité, et les API complexes amplifient cette perte
En pratique, une CLI bien conçue, avec une bonne sortie --help, des réponses JSON structurées et une gestion prévisible des erreurs, fournit tout ce dont un agent a besoin sans la surcharge d’un protocole
Comme le fait remarquer Simon Willison, « presque tout ce qu’on peut accomplir avec MCP peut être géré avec des outils CLI »
Il ne s’agit pas de rejeter MCP ; les équipes doivent éviter son adoption par défaut et se demander d’abord si leur système a réellement besoin d’une interopérabilité au niveau du protocole
MCP est justifié lorsque ses bénéfices en matière de gouvernance et d’intégration l’emportent sur la complexité supplémentaire et la perte potentielle de fidélité

41. Environnements de développement diffusés en pixels

Utilisation de bureaux ou stations de travail distants de type VDI pour le développement logiciel, où l’édition, la compilation et le débogage se font via un bureau diffusé en streaming plutôt que sur la machine locale ou dans un environnement distant centré sur le code
Les organisations continuent de les adopter, notamment pour répondre à des objectifs de sécurité, de standardisation et d’onboarding pour les équipes offshore et les programmes cloud de lift and shift
Cependant, en pratique, les compromis sont souvent défavorables — latence, délai de saisie et réactivité d’affichage irrégulière créent une friction cognitive constante, ralentissent la vitesse de livraison et rendent les tâches quotidiennes de développement plus fatigantes
Contrairement aux environnements de développement dans le cloud, à Google Cloud Workstations, à Coder ou à VS Code Remote Development, qui rapprochent le calcul du code sans diffuser l’intégralité d’un bureau
Les configurations pixel-streamed privilégient le contrôle centralisé plutôt que le flux de travail des développeurs, et sont souvent imposées sans suffisamment de retours des ingénieurs qui les utilisent
Sauf si de fortes contraintes de sécurité ou de conformité l’emportent clairement sur le coût en productivité, les environnements de développement pixel-streamed ne sont pas recommandés comme choix par défaut pour la livraison logicielle

[Platforms]

Adopt

— Aucun

Trial

42. AG-UI Protocol

Un protocole ouvert et des bibliothèques conçus pour standardiser la communication entre des interfaces utilisateur riches et des agents IA côté backend
Historiquement, construire des UI agentiques nécessitait des travaux de plomberie sur mesure pour une collaboration bidirectionnelle avec état ; AG-UI résout cela avec une architecture cohérente basée sur les événements qui prend en charge des transports comme les server-sent events (SSE) et les WebSockets
Il prend en charge le streaming des étapes de raisonnement, la synchronisation d’état et le rendu dynamique de composants UI
Cependant, le paysage architectural des interfaces d’agents évolue rapidement, et AG-UI se positionne délibérément en dehors de MCP pour servir de couche d’interface entre le frontend et le backend agentique
Une autre approche émerge avec de nouvelles applications basées sur MCP qui intègrent directement du HTML et des widgets UI dans des serveurs MCP ou des skills
À mesure que les composants UI peuvent être embarqués et fournis avec les outils — un pattern lié à des standards voisins comme MCP-UI — cela remet en question la nécessité d’une couche de protocole UI distincte comme AG-UI
Cela reste un choix solide pour séparer l’UX frontend et l’orchestration backend, mais il faut évaluer son rôle à la lumière de la tendance, dans l’écosystème MCP, à intégrer la logique des outils et l’UI

43. Apache APISIX

Une passerelle open source, haute performance et cloud native qui répond aux limites des solutions historiques basées sur Nginx
Construite sur LuaJIT de Nginx et OpenResty, elle utilise etcd comme magasin de configuration, supprimant la latence liée aux rechargements, ce qui la rend adaptée aux microservices dynamiques et aux architectures serverless
Son principal point fort est une architecture entièrement dynamique et extensible par plugins, avec un écosystème de plugins multilingues incluant API et WASM, permettant de personnaliser la gestion du trafic, la sécurité et l’observabilité
Grâce au support de la Kubernetes Gateway API, Apache APISIX peut être utilisé comme passerelle Kubernetes, ce qui en fait un solide candidat pour remplacer les contrôleurs ingress Nginx historiques

44. AWS Bedrock AgentCore

Une plateforme agentic destinée à concevoir, exécuter et exploiter des agents en toute sécurité à grande échelle sans surcharge de gestion d’infrastructure, similaire à GCP Vertex AI Agent Builder et Azure AI Foundry Agent Service
Il est facile d’adopter la plateforme comme une boîte noire monolithique, mais une architecture granulaire et découplée mène à de meilleurs résultats — utiliser le runtime AgentCore pour les préoccupations de production comme l’isolation des sessions, la sécurité et l’observabilité, tout en conservant la logique d’orchestration dans un framework externe comme LangGraph
Cette séparation des responsabilités permet de conserver de la flexibilité face à l’évolution de l’écosystème LLM tout en profitant des avantages d’une infrastructure managée
En se concentrant d’abord sur le runtime, les organisations peuvent progressivement faire passer des workloads agentic en production sans céder le contrôle de leur logique métier à une couche d’orchestration spécifique à un fournisseur

45. Graphiti

Le moteur open source de graphe de connaissances temporel de Zep démontre la viabilité en production d’une résolution du problème de mémoire des LLM
Alors que les vector stores plats des pipelines RAG ne parviennent pas à suivre l’évolution temporelle des faits, Graphiti collecte les données en épisodes distincts et maintient sur les arêtes du graphe des fenêtres de validité bitemporelles, les faits obsolètes étant invalidés plutôt qu’écrasés
Contrairement à GraphRAG orienté batch, il met à jour le graphe de manière incrémentale et fournit une recherche en moins d’une seconde sans appel LLM au moment de la requête grâce à une recherche hybride combinant recherche sémantique, BM25 et parcours de graphe
Deux facteurs portent son adoption — des benchmarks évalués par les pairs faisant état d’un gain de précision de 18,5 % et d’une réduction de latence de 90 %, ainsi que le lancement d’un serveur MCP de premier plan qui permet à des agents compatibles Model Context Protocol d’ajouter une mémoire temporelle persistante avec un effort d’intégration minimal
Une forte adoption par la communauté constitue un autre signal de maturité pour la production
Neo4j est le backend principal, FalkorDB étant une alternative plus légère
Il faut prendre en compte le coût d’extraction LLM par écriture et la nécessité de figer les dépendances compte tenu de l’état des versions avant la 1.0

46. Langfuse

Une plateforme open source d’ingénierie LLM couvrant l’observabilité, la gestion des prompts, l’évaluation et la gestion de datasets
Depuis la dernière évaluation, le projet a fortement gagné en maturité, l’architecture v3 introduisant ClickHouse, Redis et S3 comme composants backend, ce qui améliore la scalabilité mais accroît aussi la complexité de l’auto-hébergement
Les SDK Python et TypeScript sont tous deux construits nativement sur OpenTelemetry, ce qui en fait un choix naturel pour les équipes utilisant déjà une observabilité basée sur OTEL
De nouvelles fonctionnalités comme le SDK d’experiment runner et la prise en charge des sorties structurées pour l’expérimentation sur les prompts étendent Langfuse au-delà du simple tracing vers des workflows d’évaluation systématique
La solution mérite d’être considérée dans un espace de plus en plus encombré, qui inclut Arize Phoenix, Helicone et LangSmith
Les équipes construisant principalement sur Pydantic AI peuvent aussi envisager Pydantic Logfire, qui adopte une approche plus large comme plateforme d’observabilité OTEL full-stack plutôt qu’une suite d’outils spécifique aux LLM
C’est un choix fiable pour les équipes ayant besoin d’une plateforme unique auto-hébergeable réunissant tracing, évaluation et gestion des prompts, mais si le besoin principal se limite à la visibilité sur les coûts et la latence de la couche modèle, il faut évaluer si un outil plus ciblé comme Helicone ne suffit pas

47. Port

Un portail développeur interne commercial conçu pour améliorer l’expérience développeur, en offrant aux équipes plateforme une source unique de vérité pour centraliser les actifs logiciels, automatiser les workflows et imposer des standards d’ingénierie via des workflows self-service
Son importance grandit à mesure que les organisations cherchent à standardiser les workflows d’ingénierie tout en exposant aux développeurs, sous une forme réellement exploitable, des templates, API, automatisations et agents
Au-delà du portail autonome, Port peut aussi être utilisé directement dans l’IDE via son API et sa couche MCP
Convient bien aux organisations qui veulent des capacités de portail prêtes à l’emploi sans investir massivement dans le platform engineering
Dans des missions client, il a permis à des équipes plateforme relativement petites de livrer rapidement un self-service efficace tout en prenant en charge des milliers de développeurs
À évaluer pour les organisations qui ont rapidement besoin de capacités de portail développeur interne et acceptent les contraintes d’une plateforme commerciale et la dépendance fournisseur

48. Replit

Une plateforme de développement collaborative cloud native offrant un environnement de développement instantané, du codage en temps réel et une assistance IA intégrée directement dans le navigateur
Elle réunit éditeur, runtime, déploiement et workflows de code assisté par IA dans une plateforme unifiée, permettant aux développeurs de commencer à coder immédiatement sans configuration locale
Son IDE collaboratif propulsé par l’IA aide beaucoup à réduire les frictions d’onboarding et convient bien au prototypage en équipe
Elle est aussi très efficace pour les sessions de formation, le partage de connaissances et les bootcamps
Certains peuvent voir Replit comme un simple espace pour des projets personnels assistés par IA, mais l’environnement est suffisamment puissant pour rivaliser avec un IDE local traditionnel, ce qui facilite grandement l’itération et la collaboration

49. SigNoz

Une plateforme d’observabilité open source native OpenTelemetry prenant en charge de manière unifiée logs, métriques et traces
Elle répond aux besoins d’APM et d’instrumentation des microservices modernes et des architectures distribuées tout en évitant l’enfermement propriétaire
En s’appuyant sur ClickHouse comme base de données colonnaire principale, elle offre un stockage scalable, performant et économique, avec des requêtes rapides, et s’impose comme une alternative auto-hébergée solide à des plateformes comme Datadog
Elle propose des requêtes flexibles via PromQL et SQL ClickHouse, ainsi que la prise en charge d’alertes sur plusieurs canaux
En pratique, SigNoz a permis de confirmer une réduction de la consommation de ressources d’infrastructure et du coût global de l’observabilité sans dégradation des performances
Un service cloud managé existe, mais pour les organisations qui préfèrent garder le contrôle sur leurs données et leur infrastructure, les images Docker prêtes à l’emploi et les charts Helm constituent un choix pratique

Évaluer

50. Agent Trace

Spécification ouverte de standardisation de l’attribution du code par l’IA proposée par Cursor
Avec l’augmentation de l’adoption des agents de codage, la compréhension de qui a modifié le code s’étend au-delà des développeurs humains pour inclure les changements générés par l’IA
Les outils existants comme git blame peuvent montrer qu’une ligne de code a été modifiée, mais ne parviennent pas à déterminer si le changement provient d’un humain, d’une IA ou des deux
Agent Trace adopte une approche neutre vis-à-vis des fournisseurs pour définir comment suivre les modifications de code, sans imposer de méthode de stockage des traces
Compatible avec plusieurs systèmes de gestion de versions, dont Git, Mercurial et Jujutsu
La spécification définit des enregistrements de traçage décrivant des types de contributeurs comme human, AI, mixed et unknown, ainsi que l’origine de chaque contribution
Premiers signes d’adoption avec le support d’outils comme Cline et OpenCode, et des implémentations comme Git AI

51. ClickStack

Plateforme d’observabilité open source compatible OpenTelemetry qui unifie logs, traces, métriques et sessions dans un stockage de données unique et haute performance basé sur ClickHouse
Avec la croissance de l’infrastructure et la hausse des coûts d’observabilité, de nombreuses équipes peinent avec des chaînes d’outils de télémétrie fragmentées et des plateformes propriétaires coûteuses
ClickStack exploite le stockage colonnaire de ClickHouse pour permettre des requêtes à haute cardinalité en moins d’une seconde sur de gros volumes de données de télémétrie, offrant une base plus simple et plus rentable pour l’observabilité

52. Coder

Bonne alternative aux pixel-streamed development environments, en séparant l’endroit où le code s’exécute de la manière dont les développeurs interagissent avec lui
Au lieu de diffuser toute une interface de bureau, les développeurs se connectent à l’environnement distant via un IDE local comme VS Code ou via le navigateur, pour une expérience plus réactive sans dégrader l’ergonomie
Le code s’exécute sur une infrastructure distante extensible, et les environnements sont définis et gérés comme du code, ce qui permet aux équipes de standardiser la configuration de développement et de simplifier l’onboarding des nouveaux développeurs
Facilite aussi la mise à disposition d’un accès contrôlé aux systèmes internes et la simplification de l’accès pour des agents de codage IA préapprouvés
Coder est perçu comme un point intermédiaire entre le développement local et le bureau virtuel entièrement virtualisé, offrant contrôle centralisé et gouvernance sans les limites d’usage du VDI pixel-streamed
Bonne option pour les organisations ayant besoin d’environnements d’exécution distants ou contrôlés, en particulier lorsqu’il faut plus de puissance de calcul ou un accès sécurisé
Il faut évaluer la surcharge opérationnelle et les responsabilités de sécurité liées à la gestion de ces environnements

53. Databricks Agent Bricks

À mesure que les approches basées sur des agents se généralisent, les plateformes de données évoluent pour prendre en charge ces workloads nativement, et non comme un module additionnel
Databricks Agent Bricks propose des composants préconstruits et auto-optimisés pour des patterns IA courants comme les assistants de connaissance et les analystes de données
Suit une approche déclarative : les développeurs définissent les objectifs et les données de base, et le framework gère l’exécution et l’optimisation
En simplifiant le LLMOps et en réduisant l’effort nécessaire à la curation des données, l’outil permet aux équipes de se concentrer davantage sur les résultats métier que sur le boilerplate
Une équipe l’a utilisé avec des agents personnalisés pour évaluer et construire une solution RAG complexe destinée à la R&D préclinique
À envisager si vous êtes déjà investi dans l’écosystème Databricks et que vous explorez des approches à base d’agents pour des cas d’usage génériques comme les chatbots et l’extraction de documents

54. DuckLake

Format unifié de data lake et de catalogue qui simplifie l’architecture lakehouse en utilisant une base de données SQL standard pour le catalogue et la gestion des métadonnées
Alors que les formats de tables ouverts traditionnels comme Iceberg ou Delta Lake reposent sur des structures de métadonnées complexes basées sur des fichiers, DuckLake stocke les métadonnées dans une base de données de catalogue (SQLite, PostgreSQL, DuckDB, etc.) tout en persistant les données dans des fichiers Parquet sur disque local ou dans un stockage objet compatible S3
Cette approche hybride améliore la latence de planification des requêtes et la fiabilité transactionnelle lors des mises à jour concurrentes
DuckDB sert de moteur de requête via l’extension ducklake, avec une interface SQL familière pour les opérations DDL et DML standard
Conserve des caractéristiques lakehouse comme le partitionnement, tout en omettant les index et les clés primaires/étrangères
Avec la prise en charge du time travel, de l’évolution de schéma et de la conformité ACID, il offre une option peu complexe aux équipes qui recherchent une stack analytique indépendante
Encore à un stade précoce de maturité, mais alternative prometteuse et légère aux architectures lakehouse traditionnelles
Bien adapté à des environnements de données simplifiés, en évitant la surcharge opérationnelle associée aux écosystèmes basés sur Spark ou Trino

55. FalkorDB

Base de données graphe basée sur Redis prenant en charge Cypher, adaptée aux équipes qui veulent des capacités graphe sans adopter une plateforme graphe lourde
Option pratique pour les organisations qui construisent des workloads IA et applicatifs riches en relations, où une faible friction opérationnelle est importante et où un service graphe basé serveur est préféré au stockage embarqué
L’architecture est prometteuse et le modèle de développement accessible, mais avant toute décision d’adoption à grande échelle, il faut valider le comportement en production de FalkorDB en matière de montée en charge, d’outillage opérationnel et de maturité à long terme de l’écosystème

56. Google Dialogflow CX

Plateforme conversationnelle IA managée de Google Cloud, combinant une machine à états basée sur des graphes construite avec Flows et Pages et des capacités génératives fondées sur Vertex AI Gemini
Son prédécesseur, Dialogflow, avait déjà été suivi dans le Radar
CX représente une refonte majeure ; il a attiré l’attention en 2024 après l’intégration par Google des modèles Vertex AI Gemini, avec l’introduction de Generative Playbooks pour les agents guidés par instructions et de Data Store RAG pour ancrer les réponses dans des contenus indexés
Utilisé pour construire un agent de découverte de données en langage naturel, avec un choix de Dialogflow CX plutôt qu’un accès via SDK personnalisé grâce à son environnement low-code et à Generative Playbooks
Configuré avec du few-shot prompting pour traduire des requêtes en langage naturel en SQL
Les équipes construites sur Google Cloud ont constaté une livraison plus rapide pour bâtir des interfaces en langage naturel sur des données internes structurées, par rapport à une stack d’agents personnalisée
En revanche, pas de free tier, une forte dépendance à Google Cloud introduit un verrouillage fournisseur important, et il faut prévoir l’effort de context engineering

57. MCP Apps

Première extension officielle du Model Context Protocol, qui permet aux serveurs MCP de renvoyer des interfaces HTML interactives rendues directement dans la conversation sous forme de tableaux de bord, formulaires et visualisations
Développée conjointement par Anthropic, OpenAI et des contributeurs open source, elle standardise un schéma de ressource ui:// par lequel les outils déclarent des modèles d’UI rendus dans des iframes sandboxées, avec dégradation élégante en texte si l’hôte ne prend pas en charge l’UI
Contrairement à AG-UI, qui fonctionne comme une couche de bibliothèque séparée, MCP Apps packaging directement l’UI à l’intérieur du serveur MCP
Grâce à sa conception bidirectionnelle, le modèle peut observer les actions de l’utilisateur, et l’interface gère les données en temps réel et la manipulation directe là où le texte seul ne suffit pas
Des clients comme Claude, ChatGPT, VS Code et Goose ont déjà lancé un support
Les équipes qui explorent des interactions agentiques plus riches doivent évaluer si la complexité supplémentaire se justifie pour leur cas d’usage par rapport à de simples réponses en texte brut

58. Monarch

Framework open source de programmation distribuée qui apporte la simplicité des workloads PyTorch sur une seule machine aux grands clusters de GPU
Fournit une API Python pour créer des processus et acteurs distants, regroupés en collections mesh prenant en charge la messagerie de diffusion
Offre une tolérance aux pannes via un supervision tree, où les échecs se propagent dans la hiérarchie pour permettre une gestion propre des erreurs et une récupération fine
Prend en charge les transferts RDMA point à point pour des déplacements efficaces de mémoire GPU·CPU, et propose une abstraction de tenseurs distribués permettant aux acteurs de travailler sur des tenseurs fragmentés à l’échelle des processus tout en conservant un modèle de programmation impératif
Monarch est construit sur un backend Rust haute performance
Encore à un stade précoce de développement, mais son abstraction qui fait fonctionner les tenseurs distribués comme des tenseurs locaux est puissante et pourrait fortement réduire la complexité de l’entraînement IA distribué à grande échelle

59. Neutree

Plateforme open source pour gérer et servir des LLM sur une infrastructure privée, qui se positionne comme une couche de service de modèles pour l’IA d’entreprise
Fournit un plan de contrôle unifié pour la gestion du cycle de vie des modèles, le serving d’inférence et l’ordonnancement des calculs sur du matériel hétérogène comme les accélérateurs NVIDIA, AMD et Intel
Alors que les organisations passent d’API hébergées à des déploiements auto-hébergés et gouvernés, Neutree comble un manque clair — exploitation des workloads LLM avec des capacités de niveau entreprise comme la multi-location, le contrôle d’accès, la comptabilisation de l’usage et l’abstraction de l’infrastructure
En séparant le serving de modèles de la logique applicative, il permet aux équipes de déployer, mettre à l’échelle et router des modèles sur des environnements incluant bare metal, VM et conteneurs, sans être fortement couplées à un fournisseur cloud particulier
Cependant, c’est un projet relativement récent, qui demande une approche prudente à l’adoption
L’écosystème, la maturité opérationnelle et les capacités d’intégration restent en évolution par rapport à des plateformes ML plus établies
Prometteur, mais surtout adapté aux équipes prêtes à investir dans l’évaluation et la structuration d’une infrastructure IA d’entreprise émergente

60. OptScale

Plateforme open source multicloud de FinOps destinée à des workloads lourds en IA/ML, où les coûts GPU et expérimentaux peuvent vite exploser
Collecte les données de facturation et d’usage depuis les API cloud, puis combine dans un système unique visibilité sur les coûts, recommandations d’optimisation, suivi budgétaire et détection d’anomalies avec des alertes basées sur des politiques alignées sur les équipes ou la structure métier
Comparé à OpenCost, OptScale fournit une analyse au niveau Kubernetes tout en couvrant un éventail plus large de cas d’usage FinOps hors Kubernetes
Offre plus de contrôle et moins de dépendance fournisseur que des suites d’entreprise comme IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost et Flexera One
La contrepartie est une charge opérationnelle plus élevée, une complexité de déploiement accrue, des cas limites côté connecteurs et des inquiétudes liées à l’hygiène de sécurité des images de conteneurs
À traiter non comme un produit plug-and-play, mais comme un investissement de capacité plateforme

61. Rhesis

Plateforme open source de test pour les LLM et les applications agentiques, permettant aux équipes de définir le comportement attendu en langage naturel, de générer des scénarios de test adverses et d’évaluer les résultats via l’UI ainsi que par SDK ou API
Alors que les approches de test traditionnelles supposent un comportement déterministe, les systèmes d’IA échouent de manière plus subtile — y compris les jailbreaks, les interactions multi-tours, les violations de politiques et les cas limites dépendants du contexte
Plateforme utile pour les équipes qui ont besoin de plus qu’une simple évaluation de prompts
Des fonctions comme le conversation simulator, les tests adverses, le traçage basé sur OpenTelemetry et l’auto-hébergement via Docker offrent un moyen concret de réunir les équipes produit, métier et ingénierie autour d’un workflow de test partagé
Son principal avantage est une meilleure validation avant mise en production pour des systèmes non déterministes
Il faut toutefois prendre en compte les compromis habituels : coût de l’évaluation, limites des métriques LLM-as-judge et nécessité de disposer d’exigences bien définies avant que la plateforme n’apporte de la valeur
Mérite d’être évaluée par les équipes qui construisent des systèmes LLM ou agentiques nécessitant des tests collaboratifs et reproductibles au-delà de simples vérifications de prompts

62. RunPod

À mesure que les organisations multiplient les expériences d’entraînement et de fine-tuning de LLM, les hyperscalers comme AWS et Google Cloud peuvent entraîner des coûts élevés et une disponibilité matérielle limitée
RunPod fournit une alternative économique pour les workloads IA intensifs en calcul
Fonctionne comme une marketplace mondiale et distribuée de GPU, offrant un accès à la demande à une large gamme de matériel, des clusters H100 de niveau entreprise jusqu’aux RTX 4090 grand public, souvent à un coût nettement inférieur à celui des fournisseurs cloud traditionnels
Une option pragmatique qui mérite d’être évaluée par les équipes ayant besoin d’une infrastructure flexible et compatible avec leur budget pour développer, entraîner et déployer des modèles d’IA sans engagement de long terme ni dépendance fournisseur

63. Sprites

Environnement sandbox persistant de Fly.io conçu pour l’exécution isolée d’agents de codage IA
Alors que la plupart des sandbox d’agents sont éphémères — créées pour une tâche puis supprimées — Sprites fournit un environnement Linux persistant avec capacités illimitées de checkpoint et de restauration
Les développeurs peuvent prendre un instantané de l’état complet de l’environnement, incluant les dépendances installées, la configuration d’exécution et les modifications du système de fichiers, puis revenir en arrière si l’agent déraille
Cela capture un état système que le seul Git ne permet pas de restaurer, au-delà de ce que le contrôle de version suit
Alors que les équipes adoptent de plus en plus le sandboxed execution for coding agents comme choix par défaut raisonnable, Sprites représente une extrémité du spectre — une approche persistante et stateful qui troque la simplicité des conteneurs éphémères contre des options de récupération plus riches
Les équipes qui évaluent le sandboxing d’agents peuvent considérer Sprites selon leurs besoins et leurs workflows, aux côtés d’alternatives éphémères comme les Dev Containers

64. torchforge

Bibliothèque de reinforcement learning native PyTorch conçue pour le post-entraînement à grande échelle des modèles de langage
Fournit des abstractions de haut niveau qui séparent la logique algorithmique des préoccupations d’infrastructure, en orchestrant Monarch pour l’ajustement, vLLM pour l’inférence et torchtitan pour l’entraînement distribué
Cette approche permet aux chercheurs d’exprimer des workflows complexes de reinforcement learning avec une API proche du pseudocode, et de faire monter les workloads à l’échelle de milliers de GPU sans gérer les détails bas niveau comme la synchronisation des ressources, l’ordonnancement ou la tolérance aux pannes
En séparant le « quoi » (la conception algorithmique) du « comment » (l’exécution distribuée), torchforge simplifie l’expérimentation et l’itération dans les systèmes d’alignement à grande échelle
Une étape utile pour rendre les techniques avancées de post-entraînement plus accessibles, mais les équipes doivent évaluer sa maturité et son adéquation dans leur infrastructure ML existante

65. torchtitan

Plateforme native PyTorch pour le pré-entraînement à grande échelle de modèles d’IA générative, fournissant une implémentation de référence propre et modulaire pour l’entraînement distribué haute performance
Réunit des primitives distribuées avancées dans un système cohérent pour prendre en charge la parallélisation 4D des données, tenseurs, pipelines et contextes (4D parallelism)
Alors que l’entraînement de modèles de la taille de Llama 3.1 405B exige une échelle et une efficacité considérables, torchtitan fournit une base pratique pour construire et exploiter de gros workloads d’entraînement
Sa conception modulaire permet aux équipes d’expérimenter et de faire évoluer leurs stratégies de parallélisation tout en conservant une préparation à la production
Une étape utile vers la standardisation de l’entraînement de grands modèles dans l’écosystème PyTorch, particulièrement adaptée aux équipes qui construisent leur propre infrastructure de pré-entraînement

[Outils]

Adopt

66. Axe-core

Outil de test open source de détection des problèmes d’accessibilité pour les sites web et autres applications basées sur HTML
Vérifie la conformité des pages à des standards comme les WCAG — y compris les niveaux de conformité A, AA et AAA — et signale les bonnes pratiques générales en matière d’accessibilité
Depuis sa première apparition dans le Radar en Trial en 2021, plusieurs équipes ont adopté Axe-core chez des clients et en interne
L’accessibilité devient de plus en plus un attribut de qualité essentiel ; en Europe, des réglementations comme l’European Accessibility Act imposent aux organisations de satisfaire aux exigences d’accessibilité des services numériques
S’intègre bien aux workflows de développement modernes grâce à l’activation de vérifications automatisées dans les pipelines CI
Aide les équipes à éviter les régressions, à maintenir la conformité et à obtenir un retour précoce pendant le développement, en particulier pour faire de l’accessibilité une partie de la boucle de feedback lors de l’adoption à grande échelle d’outils de codage assistés par l’IA et agentiques

67. Claude Code

Outil de codage IA agentique d’Anthropic pour planifier et exécuter des workflows complexes en plusieurs étapes
Des équipes chez Thoughtworks et à l’extérieur l’utilisent au quotidien pour livrer des logiciels de production ; il est largement considéré comme une référence en matière de capacités et d’utilisabilité, ce qui justifie son passage en Adopt
L’écosystème des agents en CLI s’est rapidement étendu avec des outils comme le Codex CLI d’OpenAI, le Gemini CLI de Google, OpenCode et pi, mais Claude Code reste l’option préférée de nombreuses équipes
Son usage s’est étendu au-delà de l’écriture de code à l’exécution de workflows très variés, incluant les spécifications, les user stories, la configuration, l’infrastructure, la documentation et les processus métier définis en markdown
Continue d’introduire des fonctionnalités que d’autres outils cherchent à reproduire, comme les skills, les sous-agents, le contrôle à distance et les workflows d’équipe agentiques
Les équipes qui l’adoptent ont besoin de pratiques d’exploitation disciplinées et de pairing ; le codage agentique déplace l’effort des développeurs de l’implémentation manuelle vers la spécification de l’intention, des contraintes et des frontières de revue
Peut accélérer la livraison, mais accroît aussi le risque de complaisance face au code généré par l’IA, ce qui rend les systèmes plus difficiles à maintenir et à faire évoluer pour les humains comme pour les agents
Intérêt croissant pour le context engineering (prise en compte du sujet, sélection du contexte selon le périmètre) afin de rendre les workflows agentiques plus fiables, ainsi que pour les méthodes de mise en œuvre de curated shared instructions dans le cadre du harness engineering

68. Cursor

Avec Claude Code, l’un des agents de codage les plus largement adoptés, apparaissant de façon constante comme le choix par défaut des équipes de delivery
A mûri en un environnement agentique complet avec des fonctionnalités comme plan mode, hooks et subagents
Les agents en terminal restent populaires, mais beaucoup de développeurs estiment que la supervision d’un agent dans l’IDE offre une expérience plus riche pour revoir et affiner les plans avant exécution
L’adoption de l’Agent Client Protocol réduit la barrière pour la vaste base d’utilisateurs de JetBrains, en rendant les capacités de Cursor accessibles dans ces IDE
La capacité à inspecter les étapes individuelles de l’agent ou à revenir à une étape précédente quand il dévie du plan est particulièrement précieuse
L’usage des Agent Skills aide les équipes à packager des instructions réutilisables et à standardiser la façon dont les agents interagissent avec des codebases complexes
Les gains de productivité sont clairs, mais l’autonomie agentique exige toujours des tests automatisés rigoureux et une supervision humaine pour détecter les régressions subtiles

69. Kafbat UI

Interface web open source gratuite pour superviser et administrer des clusters Apache Kafka
Particulièrement utile lorsque les équipes doivent inspecter des payloads difficiles à lire dans le cadre du débogage quotidien
Les équipes se retrouvent souvent bloquées sur le débogage de messages chiffrés ; la prise en charge intégrée et extensible des SerDes dans Kafbat UI fournit un moyen pratique de relire les messages en appliquant un déchiffrement ou un décodage personnalisé
Offre un retour plus rapide et une meilleure expérience opérationnelle aux équipes de développement et de support que des scripts de débogage ponctuels
Recommandé dans les environnements fortement orientés Kafka, où l’inspection sûre des messages et la résolution efficace des incidents devraient être des pratiques standard

70. mise

Depuis sa dernière évaluation, a évolué d’alternative haute performance à asdf vers un frontend par défaut pour l’environnement de développement
Réunit trois préoccupations fragmentées — gestion des versions d’outils et de langages, gestion des variables d’environnement et exécution des tâches — dans un outil unique haute performance basé sur Rust, configuré via un fichier déclaratif mise.toml
mise est facile à configurer et fonctionne bien avec les pipelines CI/CD
Ajoute via l’intégration avec Cosign et les GitHub Artifact Attestations une couche de sécurité de la supply chain souvent absente des autres gestionnaires de versions
Recommandé comme choix par défaut pour les équipes qui cherchent à standardiser la configuration des environnements développeurs
Particulièrement utile dans des environnements polyglottes à microservices multiples, lorsque plusieurs codebases adoptent en même temps de nouvelles versions de langage
Fonctionne aussi avec les outils existants propres à chaque langage, de sorte que les équipes n’ont pas besoin de tout migrer d’un coup

Trial

71. cargo-mutants

Outil de mutation testing pour Rust, qui aide à aller au-delà des simples métriques de couverture de code
Injecte automatiquement de petits bugs intentionnels, comme l’échange d’opérateurs ou le retour de valeurs par défaut, afin de vérifier si les tests existants détectent réellement les régressions
Son approche sans configuration est particulièrement efficace ; contrairement aux outils précédents, elle ne nécessite aucune modification de l’arborescence source
Fournit une boucle de feedback utile aux équipes débutant en Rust, pour identifier les edge cases manquants et améliorer la fiabilité des tests unitaires et d’intégration
cargo-mutants est une implémentation spécialisée du mutation testing, également expérimenté dans d’autres écosystèmes
Son principal coût est l’allongement du temps d’exécution des tests, car chaque mutant nécessite un build incrémental
Pour le gérer, il est recommandé de cibler certains modules en développement local ou d’exécuter toute la suite de manière asynchrone dans la CI
Il peut parfois être nécessaire de filtrer les mutants logiquement équivalents, mais le gain de fiabilité des tests l’emporte sur le bruit supplémentaire

72. Marketplace de plugins Claude Code

Auparavant, le partage de commandes personnalisées, d’agents spécialisés, de serveurs MCP et de skills reposait sur un processus manuel où les développeurs copiaient-collaient des instructions depuis Confluence ou d’autres sources externes
Cela entraînait souvent une dérive de versions, les membres de l’équipe utilisant des instructions de projet obsolètes
Les équipes utilisent le marketplace de plugins Claude Code pour adopter un modèle de déploiement basé sur Git et distribuer des commandes, prompts et skills partagés
En hébergeant un marketplace d’équipe interne sur GitHub ou une plateforme similaire, les organisations peuvent diffuser ces artefacts de manière plus sûre et plus cohérente
Les développeurs peuvent synchroniser directement, via le CLI, des workflows et outils pilotés par l’IA vers leur environnement local
D’autres agents de codage comme Cursor prennent aussi en charge les plugin marketplaces d’équipe, permettant une manière plus rationalisée et mieux gouvernée de partager ces artefacts

73. Dev Containers

Une manière standardisée de définir des environnements de développement conteneurisés reproductibles à l’aide du fichier de configuration devcontainer.json
Conçu à l’origine pour fournir aux équipes une configuration de développement cohérente, l’outil a trouvé un nouveau cas d’usage attractif comme environnement d’exécution sandboxé pour les agents de codage
Lorsqu’ils exécutent un agent de codage IA dans un Dev Container, il est isolé du système de fichiers hôte, des identifiants et du réseau, ce qui permet aux équipes d’accorder de larges permissions à l’agent sans risque pour la machine hôte
La spécification ouverte est prise en charge nativement par les outils basés sur VS Code comme VS Code et Cursor
DevPod étend la prise en charge des devcontainers à n’importe quel éditeur ou workflow terminal via SSH
Adoption d’une approche éphémère par défaut (c’est-à-dire que le conteneur est reconstruit à partir de la configuration à chaque démarrage), offrant une frontière de sécurité propre au prix de la réinstallation des outils et dépendances
Pour les équipes qui ont besoin d’un état persistant ou de capacités de checkpoint et restauration, d’autres approches comme Sprites constituent une alternative
Au-delà du sandboxing des agents, cela apporte aussi des avantages en sécurité de la supply chain, en définissant la toolchain dans une configuration déclarative afin de réduire l’exposition à des paquets compromis et à des dépendances inattendues

74. Figma Make

Précédemment un blip self-serve UI prototyping with GenAI, cette technique est désormais largement adoptée par les équipes produit, y compris les product managers et les designers, pour générer des prototypes haute fidélité testables par les utilisateurs
Figma Make est une option puissante qui exploite les composants et couches réels du design system afin d’obtenir des résultats très proches de l’application en production
Utilise des modèles d’IA personnalisés entraînés sur des patterns de design de haute qualité
Les équipes l’utilisent pour créer de nouveaux écrans de design, améliorer des écrans existants et construire des prototypes partageables pour recueillir rapidement des retours utilisateurs

75. OpenAI Codex

A évolué en outil de codage agentique autonome disponible via une app macOS et un CLI
Conçu pour la délégation de tâches autonomes — à partir d’un prompt, il planifie, implémente et itère sur l’ensemble des fichiers avec une intervention minimale
Efficace comme outil d’ébauche rapide, particulièrement utile pour les travaux greenfield et les tâches d’implémentation répétitives
Cependant, OpenAI Codex a tendance à proposer des patterns de bibliothèques logiquement corrects mais fonctionnellement datés, ce qui rend indispensables les tests automatisés et la revue humaine
Comme avec les autres outils agentiques de ce Radar, le risque d’accumulation subtile de dette technique est bien réel et proportionnel au niveau d’autonomie accordé par les équipes

76. Typst

Un système de composition typographique basé sur le balisage qui s’est imposé comme un successeur moderne à LaTeX pour la génération programmatique de documents
Combine une typographie de haute qualité avec une syntaxe plus simple, et offre une pipeline de compilation remarquablement rapide qui compile même de très grands documents en une fraction du temps des toolchains LaTeX traditionnelles
Typst fournit des messages d’erreur plus clairs ainsi que des capacités de scripting intégrées comme les conditions et les boucles
Peut charger des données structurées depuis JSON ou CSV, ce qui le rend bien adapté à la génération automatisée de documents
Des équipes l’utilisent pour générer des relevés et rapports pour des clients du secteur bancaire et des services financiers, qui doivent être produits à grande échelle dans un format cohérent
Le compilateur open source peut être auto-hébergé, et l’écosystème en croissance inclut des packages apportés par la communauté
Plus accessible que LaTeX tout en offrant une qualité typographique comparable

Assess

77. Agent Scan

Un scanner de sécurité pour l’écosystème des agents qui découvre les composants locaux, y compris les serveurs MCP et les skills, et signale des risques comme le prompt injection, la contamination d’outils, le toxic flow, les secrets codés en dur et la gestion non sécurisée des identifiants
Répond à un manque émergent de visibilité sur la supply chain des agents, en fournissant un moyen pratique d’inventorier et de tester une surface agentique en croissance rapide
Cependant, l’adoption doit être réfléchie — les scans exigent de partager les métadonnées des composants avec l’API Snyk, et la qualité du signal ainsi que le taux de faux positifs doivent être validés dans l’environnement
Il est important que les équipes confirment la valeur opérationnelle de Agent Scan avant d’en faire une partie des gates de livraison obligatoires

78. Beads

Un issue tracker basé sur Git conçu comme couche de mémoire persistante pour les agents de codage
Au lieu de s’appuyer sur des plans Markdown temporaires, il fournit aux agents un graphe de tâches structuré, compatible avec les branches, pour les relations de blocage, la détection du travail prêt à être lancé et la coordination de tâches longues sur plusieurs sessions
Beads est construit sur Dolt, une base de données SQL avec contrôle de version intégré qui prend en charge les branches, les merges, les diff et la duplication de tables à la manière d’un dépôt Git
Représente une nouvelle catégorie d’outils de mémoire projet et de suivi de tâches nativement conçus pour les agents
Parmi les autres projets précoces dans cet espace figurent ticket et tracer
Contrairement aux systèmes de ticketing traditionnels comme GitHub Issues et Jira, cela permet de nouveaux workflows de coordination d’exécutions multi-agents autonomes, y compris lorsque des agents s’assignent du travail entre eux

79. Bloom

Un outil d’Anthropic destiné aux chercheurs en sécurité de l’IA pour évaluer le comportement des LLM
Détecte des comportements comme la sycophancy (flagornerie) et le self-preservation (auto-préservation)
Par rapport aux benchmarks statiques, il utilise une configuration initiale définissant les comportements cibles et les paramètres d’évaluation pour générer dynamiquement diverses conversations de test puis en évaluer les résultats
Cette approche de l’évaluation comportementale automatisée est essentielle pour suivre le rythme des sorties de modèles et permet aux équipes de recherche externes de mener les évaluations
Petri, l’outil compagnon, identifie quels comportements apparaissent dans un modèle donné, tandis que Bloom identifie dans quels scénarios et à quelle fréquence ces comportements se produisent ; ensemble, ils forment une suite d’évaluation plus complète
Une inquiétude est que Bloom nécessite un modèle enseignant (ou évaluateur) pour évaluer un modèle étudiant donné ; le modèle enseignant peut avoir des angles morts et des biais, et l’utilisation de plusieurs évaluateurs peut réduire le biais des résultats
À évaluer par les équipes de recherche en sécurité de l’IA comme complément aux benchmarks statiques pour l’évaluation des comportements émergents des modèles

80. CDK Terrain

Fork communautaire de Cloud Development Kit for Terraform (CDKTF), abandonné puis archivé par HashiCorp en décembre 2025
CDK Terrain (CDKTN) reprend là où CDKTF s’est arrêté, permettant aux équipes de définir l’infrastructure en TypeScript, Python et Go, puis de la provisionner via Terraform ou OpenTofu
Pour les équipes ayant déjà investi dans CDKTF, il préserve le code et les workflows existants et offre une voie de migration au lieu d’imposer un basculement vers HCL ou Pulumi
Le projet publie des releases chaque mois et a ajouté le support d’OpenTofu comme cible de premier plan
Cependant, un fork maintenu par la communauté d’un projet abandonné par son éditeur comporte des risques intrinsèques en matière de support à long terme, et l’approche CDKTF n’a pas réussi à obtenir une adoption large
HashiCorp a cité un manque d’adéquation produit-marché lors de l’arrêt
Les équipes utilisant actuellement CDKTF peuvent évaluer CDK Terrain comme option de continuité, tout en pesant aussi s’il ne s’agit pas du bon moment pour migrer vers une approche plus largement prise en charge

81. CodeScene

Apparue comme blip de social code analysis en 2017, l’adoption croissante des agents de code suscite un nouvel intérêt pour des outils comme CodeScene
Outil d’analyse comportementale du code qui combine des métriques de complexité du code avec l’historique du contrôle de version pour identifier la dette technique
Contrairement à l’analyse statique traditionnelle, il met en avant les « hotspot », aidant les équipes à prioriser le refactoring selon l’activité réelle de développement et l’impact métier
Il fournit désormais des recommandations pour une conception de code adaptée à l’IA
Les équipes constatent que la qualité du code devient encore plus importante, car les agents de code peuvent modifier le code bien plus vite que les développeurs humains
La métrique CodeHealth de CodeScene offre des garde-fous utiles en identifiant les zones trop complexes pour qu’un LLM les refactore en toute sécurité sans risque d’hallucination
Son évaluation est recommandée comme garde-fou pour l’adoption d’agents de code, la métrique CodeHealth mettant en évidence les cibles de refactoring sûres et les zones à améliorer avant d’appliquer des agents

82. ConfIT

Bibliothèque qui définit de façon déclarative en JSON les tests d’API d’intégration et de type composant, plutôt que de les écrire impérativement sous forme de code
L’intérêt pour cette approche augmente, car les grandes suites de tests accumulent souvent du boilerplate autour du client HTTP, de la configuration des requêtes et des assertions
Le développement assisté par l’IA renforce cette tendance, les définitions de tests structurées étant plus faciles à générer et à maintenir que du code procédural verbeux
D’après l’expérience client et l’évaluation, cette couche déclarative réduit les doublons entre tests de composant et d’intégration, améliore la lisibilité et facilite l’évolution de l’intention des tests à l’échelle des équipes
Cependant, ConfIT lui-même présente une adoption communautaire limitée et un petit écosystème, ce qui rend une recommandation large difficile malgré ces avantages
À évaluer pour les équipes .NET qui explorent les tests d’API pilotés par spécification, à condition de vérifier la viabilité de maintenance à long terme, l’adéquation de l’écosystème et les compromis opérationnels

83. Entire CLI

S’intègre aux workflows Git pour capturer les sessions d’agents de code IA — transcriptions, prompts, appels d’outils, fichiers touchés, consommation de tokens — sous forme de métadonnées consultables stockées dans une branche dédiée du dépôt
Prend en charge Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid et GitHub Copilot CLI
À mesure que les agents IA deviennent des contributeurs majeurs du codebase, les équipes font face à un écart croissant entre ce que Git suit et ce qui se passe réellement pendant les sessions de code
Entire CLI enregistre la session complète en parallèle des commits, sans polluer l’historique de la branche principale, afin de créer une piste d’audit de l’activité des agents
Son système de checkpoints permet aussi une récupération pratique, les équipes pouvant revenir à un état connu comme bon quand un agent déraille et reprendre depuis n’importe quel checkpoint
L’outil est très récent et l’écosystème de traçabilité des sessions d’agents est encore en formation, mais cette capture de session native à Git est un choix naturel pour les équipes soumises à des exigences de conformité ou d’audit liées au code généré par l’IA

84. Git AI

Extension Git open source pour suivre le code généré par l’IA dans un dépôt, en reliant chaque ligne écrite par l’IA à l’agent, au modèle et au prompt qui l’ont produite
Git AI utilise des checkpoints et des hooks pour suivre les changements de code incrémentaux entre le début et la fin d’un commit
Chaque checkpoint inclut le diff entre l’état courant et le checkpoint précédent, marqué comme écrit par l’IA ou par un humain
Cette approche est plus précise que celles qui se concentrent sur le comptage des lignes de code au moment de leur insertion
Utilise un standard ouvert via Git Notes pour le suivi du code généré par l’IA
Même si l’écosystème des agents pris en charge est encore en maturation, cela mérite d’être évalué par les équipes qui veulent préserver la responsabilité et la maintenabilité à long terme dans des workflows agentiques
Les humains comme les agents IA peuvent, via la compétence /ask, consulter les sessions d’agents archivées pour interroger l’intention d’origine et les décisions d’architecture derrière un bloc de code donné

85. Google Antigravity

Fork autonome de VS Code construit sur une technologie sous licence de Windsurf, lancé en preview publique en novembre 2025 avec Gemini 3
Reconfigure l’IDE autour de l’orchestration multi-agents — Agent Manager exécute plusieurs agents en parallèle sur différentes tâches, un navigateur Chromium intégré permet aux agents d’interagir directement avec une UI en direct, et le système de skills stocke dans le dépôt des instructions d’agent réutilisables
Plus qu’une barre latérale de chat standard, Agent Manager joue le rôle d’un tableau de bord « Mission Control », marquant un basculement fondamental du rôle du développeur, de l’écriture ligne par ligne à l’orchestration de multiples flux de travail autonomes
Les développeurs peuvent toujours revenir dans l’éditeur si nécessaire afin de garder un contrôle human-in-the-loop (HITL)
Google Antigravity s’intègre à Google Cloud et Firebase via le Model Context Protocol et prend en charge le développement d’agents avec Agent Development Kit
Reste en preview publique, sans date de disponibilité générale, et sa posture de sécurité ainsi que sa préparation à l’entreprise continuent d’évoluer
Son modèle d’exécution multi-agents et son accès autonome au navigateur signalent la direction prise par les IDE agentiques

86. Google Mainframe Assessment Tool

aide les organisations à rétroconcevoir les applications exécutées sur mainframe, en analysant l’ensemble du portefeuille ou des systèmes individuels
repose au cœur sur des parseurs de langage déterministes pour cartographier les flux d’appels et les dépendances de données dans toute la base de code, et générer une vue structurelle de la manière dont les applications interagissent
sur cette base, les capacités d’IA générative fournissent résumés, documentation, génération de cas de test et recommandations de modernisation
cette approche s’aligne sur le schéma plus large de la compréhension des bases de code legacy avec la GenAI, où une compréhension solide du système constitue la base d’un usage efficace de l’IA
Google Mainframe Assessment Tool ne prend pas encore en charge toutes les principales stacks technologiques mainframe, mais évolue rapidement
les équipes ont constaté son utilité dans des missions client centrées sur la découverte et la modernisation d’applications mainframe

87. OpenCode

s’impose rapidement comme l’un des agents de code open source les plus remarqués, avec une expérience résolument orientée terminal
son principal atout est la flexibilité des modèles — prise en charge de modèles frontier hébergés, de endpoints auto-hébergés et de modèles locaux
cela rend OpenCode attractif pour le contrôle des coûts, la personnalisation et les environnements contraints, y compris les configurations air gap
cela signifie que les utilisateurs doivent être explicites sur les licences et les conditions des fournisseurs lorsqu’ils utilisent un abonnement ou une API
le modèle d’extension d’OpenCode est un autre élément clé de son attrait, avec une prise en charge à la fois des plugins et des intégrations MCP pour les workflows, outils et garde-fous propres à chaque équipe
de nombreux utilisateurs s’appuient sur Oh My OpenCode, un harness optionnel mais populaire, plus prescriptif, offrant une configuration batteries-included avec des équipes d’agents préconfigurées et des schémas d’orchestration plus riches

88. OpenSpec

à mesure que les capacités des agents de code IA évoluent, les développeurs sont de plus en plus confrontés à des problèmes de prévisibilité et de maintenabilité lorsque les exigences et le contexte n’existent que dans un historique de chat éphémère
pour y répondre, des outils de spec-driven development (SDD) émergent
OpenSpec est un framework SDD open source qui introduit une couche légère de spécification garantissant que les développeurs humains et les agents IA s’alignent sur ce qui doit être construit avant la génération de code
son élément distinctif est un workflow fluide et minimal, souvent réduit à trois étapes — propose → apply → archive
de nombreux frameworks SDD (GitHub Spec Kit, par exemple) ou workflows Agentic Skills (Superpowers, par exemple) sont mieux adaptés aux projets greenfield qu’aux contextes brownfield
au lieu d’exiger une définition complète des spécifications en amont, l’accent mis par OpenSpec sur les spec deltas est particulièrement pertinent, car il s’intègre bien aux systèmes existants
contrairement à des alternatives plus lourdes qui imposent des workflows plus stricts (BMAD, par exemple) ou nécessitent une intégration IDE spécifique à un fournisseur (Kiro, par exemple), il est itératif et neutre vis-à-vis des outils
c’est un framework convivial pour les développeurs, qui mérite d’être évalué par les équipes cherchant à introduire structure et prévisibilité dans le développement assisté par IA sans adopter un processus lourd
en parallèle, à mesure que les modèles et les agents de code gagnent en puissance, il est aussi recommandé aux équipes de surveiller et de réévaluer les capacités natives ainsi que la nécessité des outils SDD

89. PageIndex

outil qui construit des index hiérarchiques de documents pour des pipelines RAG sans vecteurs et fondés sur le raisonnement, plutôt que de s’appuyer sur la recherche traditionnelle basée sur les embeddings
alors que le découpage de documents en vecteurs peut faire perdre des informations structurelles et limiter la visibilité sur les raisons de récupération des résultats, PageIndex construit un index de type table des matières que les LLM parcourent étape par étape pour retrouver le contenu pertinent
de façon analogue à un humain qui parcourt les titres avant d’explorer une section précise, il génère une trace de raisonnement explicite expliquant pourquoi une section donnée a été sélectionnée
fonctionne bien pour des documents dont le sens dépend fortement de la structure plutôt que de la seule sémantique, par exemple des rapports financiers avec données chiffrées, des documents juridiques avec clauses croisées, ou des documents cliniques ou scientifiques complexes
cela implique toutefois des compromis : comme le raisonnement du LLM fait partie du processus de recherche, cela peut introduire une latence et des coûts significatifs, surtout sur de gros documents

90. Pencil

outil de canvas de design qui s’intègre à des IDE et à des agents de code comme Cursor et Claude Code
contrairement à Figma, qui n’offre aujourd’hui qu’un accès en lecture, Pencil exécute un serveur MCP local bidirectionnel fournissant à la fois un accès en lecture et en écriture pour manipuler directement le canvas
comme des outils tels que Figma Make et Builder.io, il offre aussi des capacités de design-to-code, mais avec une approche davantage centrée sur les développeurs — les fichiers de design sont stockés dans le dépôt au format JSON ouvert .pen, ce qui permet de versionner les assets de design avec le code
grâce à son intégration avec des outils familiers des développeurs, il aide à réduire le fossé dans le handoff entre design et développement
pour les systèmes de design vastes et complexes, Figma reste néanmoins le standard de collaboration entre les différents rôles
mais cela vaut la peine d’être envisagé pour les équipes sans designer dédié, ou avec des développeurs disposant de solides compétences en design

91. Pi

agent de code terminal open source minimaliste écrit en TypeScript
une option séduisante pour les bricoleurs et les expérimentateurs, plutôt qu’un choix par défaut grand public pour l’entreprise
Pi est un harness plus minimal et plus personnalisable qu’un agent complet comme OpenCode
plus facile à adapter que de construire un nouvel agent avec des frameworks agentiques comme ADK, LangGraph ou Mastra
malgré une forte dynamique et des releases actives, le projet reste encore précoce et largement porté par ses mainteneurs
il faut traiter pi comme un bloc de construction orienté ingénierie, et non comme une plateforme d’entreprise complète avec tous les garde-fous et le support nécessaires

92. Qwen 3 TTS

modèle open source de text-to-speech qui réduit fortement l’écart de qualité avec les produits commerciaux tout en offrant aux développeurs un contrôle supérieur à celui de nombreuses API payantes
prend en charge plusieurs langues, permet le clonage de voix à partir d’un court échantillon (environ 10 à 15 secondes) et autorise un fine-tuning post-entraînement pour des voix spécifiques à un domaine ou à un personnage
une option attrayante pour les équipes ayant besoin d’une voix spécifique à leur marque ou d’un contrôle on-prem
Qwen 3 TTS vient toutefois d’être lancé, et les équipes doivent valider sa stabilité, ses contrôles de sécurité, l’adéquation de sa licence et sa maturité opérationnelle avant de l’adopter pour des charges de travail vocales critiques en production

93. SGLang

Framework de serving haute performance qui réduit la surcharge de calcul de l’inférence LLM grâce à une co-conception entre langage de programmation frontend et runtime backend
Introduction de RadixAttention, une technique de gestion mémoire qui met agressivement en cache et réutilise l’état KV (clé-valeur) sur l’ensemble du prompt
Cette approche apporte des gains de performance significatifs par rapport aux moteurs de serving standard comme vLLM dans les scénarios à fort prefix overlap
Pour les équipes qui construisent des agents autonomes complexes, dépendent de longs prompts système ou utilisent largement le few-shot prompting avec des exemples partagés, SGLang peut offrir des gains substantiels en latence et en efficacité

94. ty

Alors que Python continue de gagner en popularité, en particulier dans l’IA et la data science, disposer d’un système de types robuste devient de plus en plus précieux
Ty est un type checker Python et serveur de langage extrêmement rapides, écrits en Rust
Il fait partie de l’écosystème Astral, qui comprend aussi des outils comme uv et ruff
Il fournit un retour rapide et s’intègre bien avec des éditeurs courants comme Visual Studio Code
Utiliser ty avec les autres outils Astral peut simplifier le développement Python dans les grandes organisations
À mesure que le codage agentic se généralise, avoir un type checker déterministe avec une boucle de feedback rapide aide à détecter les erreurs tôt et à réduire l’effort de revue de code sur des erreurs simples

95. Warp

Depuis sa dernière apparition dans le Radar, Warp a évolué bien au-delà de la description de « terminal avec des fonctionnalités IA »
Tout en conservant ses points forts de base — sortie de commande basée sur des blocs, suggestions pilotées par l’IA et fonctions de notebook — il s’étend vers un territoire traditionnellement occupé par les IDE
Il permet désormais le rendu Markdown, l’affichage d’un arbre de fichiers et l’ouverture directe de fichiers depuis le terminal, tout en prenant en charge des workflows complets de développement agentic sur plusieurs panneaux — avec un agent de codage comme Claude Code dans un panneau, un shell dans un autre et une vue des fichiers du workspace dans un troisième
Un avantage pratique observé est que Warp gère mieux que les terminaux traditionnels les sorties texte à haut débit générées par les agents de codage modernes, où la vitesse de rendu et la lisibilité peuvent devenir des goulots d’étranglement
Un assistant de codage intégré a aussi été ajouté, mais il n’a pas été largement évalué par l’équipe
Warp a récemment lancé Oz, une plateforme d’orchestration pour agents cloud intégrés au terminal, mais ce blip se concentre sur le terminal lui-même
Pour les équipes qui préfèrent un terminal léger et composable et veulent apporter leurs propres outils IA, Ghostty peut être plus adapté — avec une approche délibérément minimaliste, à l’opposé de la philosophie batteries-included de Warp
Le rythme des nouvelles fonctionnalités et les ambitions plus larges de Warp comme plateforme rendent un passage à Trial prématuré, avant une stabilisation du produit et davantage de retours terrain sur ses nouvelles capacités

96. WuppieFuzz

Fuzzer open source pour API REST qui utilise des définitions OpenAPI pour générer des requêtes valides, les fait muter pour explorer des cas limites et s’appuie sur le feedback de couverture côté serveur pour prioriser les entrées qui atteignent de nouveaux chemins d’exécution
La plupart des équipes s’appuient encore sur des tests d’intégration et de contrat fondés sur des exemples, et explorent rarement des entrées inattendues, des séquences de requêtes anormales ou des chemins riches en échecs, alors même que les API sont souvent la principale surface d’intégration des systèmes modernes
Sur la base des premières évaluations, WuppieFuzz semble être un complément prometteur à ces tests — il peut découvrir des problèmes comme des exceptions non gérées, des lacunes d’autorisation, des fuites de données sensibles, des erreurs côté serveur et des défauts logiques que des tests scriptés peuvent manquer
Les équipes doivent encore évaluer comment il s’intègre dans la CI, la surcharge d’exécution qu’il introduit et l’utilité réelle de ses résultats
Pour cette raison, il mérite d’être évalué par les équipes qui construisent des API REST critiques ou exposées vers l’extérieur

Caution

97. OpenClaw

Projet open source appartenant à ce que son auteur appelle la catégorie des « hyper-personal AI assistant »
Les utilisateurs hébergent leur propre instance, la gardent disponible en continu via des canaux de messagerie comme WhatsApp ou iMessage, et lui font exécuter des tâches via des outils connectés
Avec une mémoire persistante des conversations, préférences et habitudes, il crée une expérience personnelle durable qui se distingue réellement des interfaces de chat GenAI ou des agents de codage classiques
Le modèle est manifestement séduisant, et il a déjà inspiré des suiveurs comme Claude Cowork
Si OpenClaw est placé dans Caution, c’est parce que ce modèle exige des compromis de sécurité importants
Plus on lui accorde d’accès au calendrier, aux e-mails, aux fichiers et aux communications, plus il devient utile, tout en concentrant les permissions selon le schéma exact mis en garde dans toxic flow analysis for AI
Ce risque n’est pas propre à OpenClaw, et s’applique aussi à d’autres implémentations du même modèle, y compris des produits de fournisseurs établis
L’équipe a publié des conseils pour les équipes qui envisagent OpenClaw ainsi que sur les environnements d’exécution sandboxés, et des alternatives comme NanoClaw ou ZeroClaw peuvent réduire le rayon d’impact
Cependant, le modèle même de l’hyper-personal assistant est avide de permissions et reste à haut risque

[Languages and Frameworks]

Adopt

98. Apache Iceberg

Format de table ouvert pour les jeux de données analytiques à grande échelle, qui définit comment les fichiers de données, les métadonnées et les schémas sont organisés dans des systèmes de stockage comme S3
Il a fortement évolué ces dernières années et s’est imposé comme un bloc de base fondamental des architectures lakehouse technologiquement neutres
Il est pris en charge par tous les grands fournisseurs de plateformes de données, notamment AWS (Athena, EMR, Redshift), Snowflake, Databricks et Google BigQuery, ce qui en fait une option solide pour éviter l’enfermement propriétaire
Ce qui distingue Apache Iceberg des autres formats de table ouverts, c’est son ouverture à la fois en matière de fonctionnalités et de gouvernance, contrairement à des alternatives dont les capacités sont limitées ou contrôlées par un fournisseur unique
Sur le plan de la fiabilité, sa conception fondée sur des snapshots offre une isolation sérialisable, des écritures concurrentes sûres grâce à la concurrence optimiste et un historique de versions incluant le rollback, apportant de fortes garanties de justesse sans goulets d’étranglement de performance
Même si Apache Spark est le moteur le plus courant, Trino, Flink et DuckDB, entre autres, sont aussi bien pris en charge, ce qui le rend adapté à un large éventail de cas d’usage, des plateformes data d’entreprise à l’analyse locale légère
Il a gagné une forte confiance comme format de données stable et ouvert dans de nombreuses équipes, et il est recommandé comme choix par défaut pour les organisations qui construisent des plateformes de données modernes

99. Declarative Automation Bundles

Anciennement connu sous le nom de Databricks Asset Bundles, l’outil a évolué pour devenir un levier clé d’introduction des pratiques d’ingénierie logicielle et de CI/CD dans l’écosystème Databricks
Il a nettement gagné en maturité, au point que les équipes peuvent désormais gérer sous forme de code la plupart des ressources de la plateforme, notamment les clusters, pipelines ETL, jobs, modèles de machine learning et tableaux de bord
La commande databricks bundle plan permet aux équipes de prévisualiser les changements et d’appliquer aux artefacts Databricks des pratiques de déploiement reproductibles, à l’image de la gestion d’infrastructure avec des outils comme Terraform
En traitant comme du code des actifs traditionnellement modifiables, comme les tableaux de bord et les pipelines ML, il devient possible de versionner, tester et déployer avec le même niveau de rigueur que pour des microservices traditionnels
Fort de l’expérience acquise en environnement de production, Declarative Automation Bundles s’impose comme une approche fiable pour gérer les workflows data et ML dans Databricks
Pour les équipes menant des travaux étendus dans l’écosystème Databricks, son adoption afin de standardiser les pratiques de gestion d’infrastructure est recommandée

100. React JS

Choix par défaut du développement d’interfaces JavaScript depuis 2016, React mérite d’être réexaminé avec la sortie stable de React Compiler dans le cadre de React 19 (en octobre dernier)
En prenant en charge la mémoïsation au moment du build, il rend largement inutiles useMemo et useCallback manuels ; il est recommandé aux équipes de les conserver comme échappatoire lorsqu’un contrôle précis des dépendances d’effet est nécessaire
Éprouvé chez Meta, pris en charge par Expo SDK 54, Vite, Next.js, il supprime une catégorie de boilerplate liée aux performances, longtemps considérée comme un coût du travail à grande échelle avec React
React 19 introduit aussi les Actions et des hooks comme useActionState et useOptimistic, ce qui simplifie le traitement des formulaires et les mutations de données sans dépendre de bibliothèques externes
En 2025, lancement de la React Foundation sous l’égide de la Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion et Vercel rejoignent Meta — ce qui renforce la stabilité à long terme de la bibliothèque et répond aux inquiétudes historiquement citées par les équipes prudentes face à son adoption

101. React Native

Passe à Adopt comme choix par défaut pour le développement mobile cross-platform
Précédemment en Trial, le déploiement de la New Architecture — en particulier JSI et Fabric — répond aux préoccupations de longue date sur les goulots d’étranglement du bridge et la vitesse d’initialisation
Des gains de performance significatifs ont été observés sur des transitions d’interface complexes et des charges de travail intensives en données
En s’éloignant du bridge asynchrone, React Native offre désormais une réactivité comparable à celle d’implémentations natives tout en conservant une base de code unique
Utilisé avec succès sur de nombreux projets en production, avec un écosystème centré sur Expo et React désormais mature et stable
La gestion d’état demande encore une planification attentive, mais les gains de productivité du workflow fast refresh et du partage de compétences compensent ce coût
Pour la plupart des cas d’usage du mobile hybride, il est fortement recommandé aux équipes recherchant performance, cohérence et rapidité

102. Svelte

Framework d’interface JavaScript qui compile les composants en JavaScript optimisé au moment du build, sans dépendre d’un lourd runtime côté navigateur ni d’un DOM virtuel
Depuis sa dernière apparition en Trial, davantage d’équipes l’ont utilisé avec succès en production, et SvelteKit en a fait un choix plus solide pour le SSR et les applications web full-stack, renforçant la confiance dans son passage à Adopt
Les raisons initiales de choisir Svelte restent valables — bundles plus légers, solides performances à l’exécution et modèle de composants plus simple
Les nouvelles capacités de Svelte 5, comme les runes et snippets, rendent la réactivité et la composition d’interface plus explicites et plus flexibles
Il offre une expérience de développement plus propre avec moins de code que des frameworks front-end plus lourds
Les retours d’équipes le présentent de plus en plus comme une alternative crédible à React ou Vue, et non comme une option de niche
La familiarité avec l’écosystème, le recrutement et l’adéquation à la plateforme restent à considérer, mais il est recommandé comme choix par défaut raisonnable pour construire des applications web modernes où performance et simplicité de livraison comptent

103. Typer

Bibliothèque Python pour construire des CLI à partir de fonctions avec annotations de type standard, offrant aide automatique, autocomplétion du shell et une trajectoire claire allant du petit script à la grande application CLI
Sa pertinence augmente à mesure que les équipes transforment les outils internes, l’automatisation et les workflows développeur adjacents à l’IA en CLI de premier plan
Typer s’intègre facilement dans des projets réels, et les équipes apprécient la rapidité avec laquelle il permet de créer des commandes claires et lisibles
Ses points forts — API fondée sur les type hints, aide et autocomplétion automatiques, parcours fluide d’un script simple vers une CLI multi-commandes
En revanche, c’est une solution spécifique à Python, qui peut ne pas être la meilleure dans le cas de comportements CLI très personnalisés ou lorsqu’une cohérence interlangage est nécessaire
Recommandé pour les équipes qui construisent des CLI pour les workflows de livraison, d’exploitation et d’expérience développeur

Trial

104. Agent Development Kit (ADK)

Framework Google pour construire et exploiter des agents IA, fournissant des abstractions orientées ingénierie logicielle pour l’orchestration, les outils, l’évaluation et le déploiement
Depuis son inclusion en Assess, l’écosystème et les capacités opérationnelles ont nettement gagné en maturité, avec un développement multilingue actif et des fonctions plus solides d’observabilité et d’exécution
Les frameworks d’agents natifs des fournisseurs forment désormais un domaine très encombré — des options concurrentes comme Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK progressent également
Des alternatives open source comme LangGraph et CrewAI restent des choix solides pour les équipes qui donnent la priorité à la portabilité des frameworks et à un écosystème plus large
Bien que ADK reste à certains endroits en état pre-GA, avec quelques aspects encore rugueux et des frictions lors des mises à niveau, davantage d’usages réussis ont été observés, en particulier dans des projets investis dans la plateforme Google

105. DeepEval

Framework open source en Python pour évaluer les performances des LLM
Peut aussi servir à évaluer des systèmes et applications RAG construits avec des frameworks comme LlamaIndex ou LangChain, ainsi que des baselines et benchmarks de modèles
Au-delà de simples métriques de correspondance de mots, il fournit des évaluations plus fiables en situation réelle grâce à l’évaluation de l’exactitude, de la pertinence et de la cohérence
Inclut des capacités comme la détection des hallucinations, le scoring de pertinence des réponses et l’optimisation des hyperparamètres, avec une fonction particulièrement utile permettant aux équipes de définir des métriques personnalisées selon leurs cas d’usage
Récemment, DeepEval a été étendu pour prendre en charge des workflows agentiques complexes et des systèmes de conversation multi-tour
Au-delà de l’évaluation de la sortie finale, il fournit des métriques intégrées pour la tool correctness, la step efficiency et la task completion, y compris l’évaluation des interactions avec des serveurs MCP
Il introduit aussi la conversation simulation, qui génère automatiquement des cas de test pour le stress test d’applications multi-tour à grande échelle

106. Docling

Bibliothèque open source Python et TypeScript qui convertit des documents non structurés en sorties propres et lisibles par machine
Utilise une approche basée sur la vision par ordinateur pour comprendre la mise en page et la sémantique, et traite des entrées complexes comme les PDF, y compris les documents scannés, vers des formats structurés comme JSON et Markdown
Adapté aux pipelines RAG et à la génération de sorties structurées depuis des LLM, par opposition à des approches de recherche vision-first comme ColPali
Docling offre une alternative open source auto-hébergée à des services cloud managés propriétaires comme Azure Document Intelligence, Amazon Textract et Google Document AI, et s’intègre bien avec des frameworks comme LangGraph
Fonctionne bien sur des workloads d’extraction à l’échelle de la production couvrant aussi bien des PDF numériques que scannés, y compris de très gros fichiers contenant du texte, des tableaux et des images
Offre un bon équilibre qualité/coût pour des workflows agentiques RAG en aval

107. LangExtract

Bibliothèque Python qui extrait des informations structurées à partir de texte non structuré à partir d’instructions personnalisées, avec un ancrage précis aux sources reliant chaque entité extraite à sa position dans le document d’origine
Traite des documents spécialisés comme des notes cliniques et des rapports
Sa principale force est la traçabilité des sources, garantissant que chaque donnée extraite peut être reliée à son origine
Les entités extraites peuvent être exportées en fichiers JSONL, format standard pour les données de modèles de langage, et visualisées via une interface HTML interactive pour revue contextuelle
Les équipes qui envisagent des sorties structurées depuis des LLM pour le traitement documentaire devraient évaluer LangExtract avec des approches imposant un schéma comme Pydantic AI
LangExtract est mieux adapté aux sources longues et non structurées, tandis que Pydantic AI excelle pour contraindre le format de sortie sur des entrées plus courtes et prévisibles

108. LangGraph

Depuis le précédent Radar, nous avons observé que l’architecture de LangGraph, qui traite tous les systèmes multi-agents comme des graphes avec état et état global partagé, n’est pas toujours la meilleure façon de construire des systèmes agentiques
Des approches alternatives, comme celles utilisées dans des frameworks tels que Pydantic AI, fonctionnent également bien
Au lieu de commencer par un graphe rigide et un état partagé à grande échelle, cette approche privilégie une communication simple entre agents via l’exécution de code, puis ajoute si nécessaire une structure en graphe plus tard
Dans de nombreux cas d’usage, cela produit des systèmes plus concis et plus efficaces, car chaque agent n’accède qu’à l’état dont il a besoin, ce qui facilite le raisonnement, les tests et le débogage
En conséquence, quitte la catégorie Adopt : cela reste un outil puissant, mais il n’est plus considéré comme le choix par défaut pour construire tous les systèmes agentiques

109. LiteLLM

Parti d’une fine couche d’abstraction au-dessus de multiples fournisseurs de LLM, il a évolué vers une véritable passerelle IA
Au-delà de la simple simplification de l’intégration d’API, il traite des préoccupations transverses courantes des systèmes GenAI — retries et basculement, équilibrage de charge entre fournisseurs, suivi des coûts avec contrôle budgétaire
Les équipes adoptent de plus en plus LiteLLM comme valeur par défaut raisonnable pour les applications fondées sur l’IA
La passerelle fournit aussi un point cohérent pour traiter les questions de gouvernance, avec le suivi des requêtes, le contrôle d’accès, la gestion des clés API, le filtrage de contenu et des garde-fous en périphérie comme la modification et le masquage des données
Cependant, les équipes dépendant de fonctions différenciantes propres à un fournisseur ont souvent besoin de paramètres spécifiques au fournisseur, ce qui réintroduit le couplage que la passerelle cherche à éliminer
Le mode drop_params peut supprimer silencieusement des paramètres non pris en charge, ce qui peut entraîner une perte de capacités sans visibilité tout au long des décisions de routage
C’est un choix pragmatique pour le contrôle opérationnel, mais exploiter des capacités spécifiques à un fournisseur signifie conserver à la fois une dépendance à la passerelle et du code couplé au fournisseur

110. Modern.js

Meta-framework React de ByteDance, placé en Trial pour les équipes ayant des besoins en micro-frontends basés sur Module Federation
Le déclencheur est pragmatique — nextjs-mf se dirige vers une fin de vie (end-of-life), le Pages Router ne devrait recevoir que de petites corrections rétroportées, aucun nouveau développement n’est prévu, et les tests CI devraient être supprimés vers la mi-fin 2026
En l’absence de prise en charge officielle de Module Federation dans Next.js et avec la suppression progressive du plugin communautaire, l’équipe cœur de Module Federation recommande Modern.js comme principal framework pris en charge pour les architectures basées sur federation
Le plugin @module-federation/modern-js-v3 fournit immédiatement le câblage automatique du build, tandis que le streaming SSR et la Bridge API peuvent être utilisés comme capacités distinctes
Il existe toutefois des limites de couplage — @module-federation/bridge-react n’est pas encore compatible avec l’environnement Node, donc impossible d’utiliser Bridge dans des scénarios SSR
Les premiers retours sont positifs, et le chemin de migration est bien défini pour les équipes utilisant déjà Module Federation
L’écosystème hors ByteDance est encore en phase de maturation, avec un besoin de documentation plus fournie et d’une implication plus étroite avec l’upstream
Pour l’instant, l’investissement se justifie dans les cas d’usage Module Federation qui ne disposent pas de meilleure alternative prise en charge

Assess

111. Agent Lightning

Framework d’optimisation et d’entraînement d’agents qui permet l’optimisation automatique des prompts, le fine-tuning supervisé et l’apprentissage par renforcement agentique
La plupart des frameworks d’agents se concentrent sur la construction des agents, mais pas sur leur amélioration dans la durée
Agent Lightning prend en charge des frameworks comme AutoGen et CrewAI, et permet l’amélioration continue d’agents existants sans modifier leur implémentation de base
Cela est rendu possible grâce à une approche appelée Training-Agent Disaggregation, qui introduit une couche entre l’entraînement et le framework d’agent
Deux composants centraux — Lightning Server gère le processus d’entraînement et expose une API pour les modèles mis à jour, tandis que Lightning Client joue le rôle de runtime en collectant les traces et en les envoyant au serveur pour soutenir l’entraînement
Recommandé à l’exploration pour les équipes disposant déjà de déploiements d’agents bien établis, comme méthode d’amélioration continue des performances des agents

112. GitHub Spec Kit

Dans les discussions de ce cycle, le spec-driven development s’est démarqué, avec l’émergence de deux grands camps — les équipes qui s’appuient sur la capacité d’amélioration continue des agents de code avec un minimum de structure, et celles qui préfèrent des workflows définis et des spécifications détaillées
Plusieurs équipes expérimentent une approche spec-driven en utilisant GitHub Spec Kit, principalement dans des environnements brownfield
Le concept central de Spec Kit est la constitution, un recueil de règles fondamentales qui aligne le cycle de vie du développement logiciel
En pratique, une constitution utile capture généralement le périmètre du projet, le contexte métier, les versions techniques, les standards de code et la structure du dépôt (par ex. architecture hexagonale, modules en couches), afin d’aider les agents à opérer dans les limites architecturales prévues
Cela fait aussi apparaître des défis comme instruction bloat — un ensemble d’instructions d’agent qui grossit à mesure que l’on ajoute du contexte projet — et à terme le context rot ; une équipe y a répondu en extrayant les consignes réutilisables sous forme de skills, afin de garder les instructions concises et de ne charger le contexte détaillé qu’en cas de besoin
Dans les systèmes brownfield, une grande partie du retravail provient d’intentions floues, d’hypothèses cachées et de la découverte tardive de contraintes ; une équipe a constaté qu’un cycle de vie spec → plan → tasks → coding → review aidait à faire émerger les problèmes plus tôt
Avec le temps, le contexte répétable a été déplacé dans des fichiers comme .github/prompts/speckit.<command>.prompt.md, ce qui raccourcit les prompts et rend le comportement des agents plus cohérent
Quelques angles morts ont été signalés, comme des vérifications défensives inutiles et des sorties markdown excessivement verbeuses
Certains de ces problèmes peuvent être résolus en personnalisant les templates et instructions de Spec Kit (par ex. en limitant le nombre de fichiers markdown générés et en réduisant la verbosité dans la console)
Au final, ce sont les ingénieurs expérimentés, déjà solides en clean code et en architecture, qui tirent le plus de valeur d’un workflow spec-driven

113. Mastra

Framework open source natif TypeScript pour créer des applications et agents IA
Propose un moteur de workflow orienté graphe, une approche intégrée de multiples fournisseurs de LLM, des pauses/reprises human-in-the-loop, ainsi que des primitives de RAG et de mémoire
Inclut aussi des outils intégrés pour écrire des serveurs MCP, ainsi que pour l’évaluation et l’observabilité, avec une documentation développeur claire
Mastra offre une alternative aux stacks lourdes en Python, permettant aux équipes de construire de riches capacités IA directement dans des écosystèmes web existants comme Node.js ou Next.js
Mérite d’être évalué par les équipes investies dans l’écosystème TypeScript qui veulent éviter de basculer vers Python pour la couche IA

114. Pipecat

Framework open source permettant de construire des agents vocaux temps réel et multimodaux avec un modèle de pipeline modulaire pour l’orchestration du STT, des LLM, du TTS et du transport
Il suscite un fort intérêt car les équipes peuvent itérer rapidement sur le comportement conversationnel et changer de fournisseur avec relativement peu de friction
Comparé à LiveKit Agents, Pipecat offre une plus grande flexibilité de framework mais un parcours de production moins intégré, en particulier pour les déploiements auto-hébergés, la fiabilité du transport et la gestion à grande échelle de tours de parole à faible latence
Offre une base solide pour un travail d’ingénierie de terrain, mais nécessite un important travail de platform engineering avant de pouvoir être utilisé pour des charges de production critiques pour le métier

115. Superpowers

Avec la hausse de l’usage des agents de code, il n’existe pas de workflow unique prescrit pour toutes les équipes ; à la place, elles font évoluer des workflows adaptés à leur contexte et à leurs contraintes
Superpowers est l’un de ces workflows, construit à partir de skills composables
Il encapsule les agents de code comme des skills au sein d’un workflow structuré, et encourage le brainstorming avant le code, une planification détaillée avant l’implémentation, le TDD avec cycle red-green-refactor imposé, le débogage systématique en privilégiant les causes racines, ainsi qu’une revue de code après implémentation
Distribué sous forme de plugins via la Claude Code plugin marketplace et la marketplace de plugins Cursor

116. TanStack Start

Framework full-stack pour React et Solid, construit sur TanStack Router, comparable à Next.js, avec prise en charge du SSR, du caching et de nombreuses fonctionnalités similaires
TanStack Start fournit une sécurité de type de bout en bout à la compilation pour les server functions, les loaders et le routing, réduisant le risque de liens cassés ou de formes de données incohérentes côté frontend
Il privilégie une configuration explicite plutôt que les conventions, avec une expérience plus proche d’un travail en React “plain”
Les capacités SSR peuvent être ajoutées progressivement selon les besoins
Par rapport à Next.js, qui a des valeurs par défaut plus prescriptives pouvant entraîner des comportements inattendus si l’on ne connaît pas bien son fonctionnement interne, il est plus explicite et plus prévisible
L’écosystème TanStack a lui aussi fortement gagné en maturité, offrant un ensemble d’outils puissant pour construire des applications web modernes

117. TOON (Token-Oriented Object Notation)

Encodage lisible par l’humain de données JSON, conçu pour réduire l’usage de tokens lorsque des données structurées sont envoyées à des LLM
Il est possible de conserver JSON dans les systèmes existants et de ne convertir qu’au point d’interaction avec le modèle
Le coût en tokens, la latence et les contraintes de fenêtre de contexte deviennent de véritables considérations de conception dans les pipelines RAG, les workflows d’agents et d’autres applications fortement centrées sur l’IA
Le JSON brut consomme souvent des tokens dans des clés répétées et du surcoût structurel, plutôt que dans le contenu utile
Dans les premières évaluations, TOON apparaît comme une optimisation de dernier kilomètre intéressante pour les entrées de prompt, en particulier sur de grands jeux de données réguliers où un format tenant compte du schéma est plus efficace que JSON et plus facile à traiter pour le modèle
Ce n’est pas un remplacement de JSON pour les API, les bases de données ou les sorties de modèle, et c’est souvent un mauvais choix pour les structures profondément imbriquées ou hétérogènes, les tableaux semi-uniformes, ou les données tabulaires plates où CSV est plus compact
Il peut aussi être moins adapté aux chemins critiques sensibles à la latence, où un JSON compact fonctionne bien
Mérite d’être évalué par les équipes qui construisent des applications LLM où la taille des entrées structurées représente un enjeu réel de coût ou de qualité, avec la nécessité de le benchmarker face à JSON ou CSV sur leurs propres données et leur propre stack de modèles

118. Unsloth

Framework open source axé sur le réglage fin des LLM et l’apprentissage par renforcement de manière nettement plus rapide et plus économe en mémoire
Le réglage fin des LLM implique des dizaines de milliards de multiplications matricielles et bénéficie de l’accélération GPU ; Unsloth optimise ces opérations en les convertissant en noyaux personnalisés à haut rendement pour GPU NVIDIA, réduisant drastiquement les coûts et l’usage mémoire
Permet de régler finement des modèles sur des GPU grand public à partir du T4, au lieu de recourir à de coûteux clusters H100
Prend en charge LoRA, le réglage fin complet, l’entraînement multi-GPU, le réglage fin à long contexte (jusqu’à 500K tokens), ainsi que des modèles populaires comme Llama, Mistral, DeepSeek-R1, Qwen et Gemma
À mesure que les applications d’IA spécialisées dépendent de plus en plus du réglage fin, Unsloth abaisse considérablement la barrière à l’entrée

Publication de Thoughtworks Technology Radar, Volume 34

L’ère des agents et les difficultés de l’évaluation technologique

Conserver les principes, mais réexaminer les patterns

Les enjeux de sécurité des agents avides de permissions

Mettre la bride aux agents de code

[Techniques]

Adopt

Trial

Assess

Caution

[Platforms]

Adopt

Trial

Évaluer

[Outils]

Adopt

Trial

Assess

Caution

[Languages and Frameworks]

Adopt

Trial

Assess

À lire aussi

Aucun commentaire pour le moment.