- Pour exploiter des agents de manière stable sur des tâches utiles, il ne suffit pas d’avoir un bon modèle : il faut aussi un harness conçu pour l’ensemble de tâches visé
- La boucle d’agent la plus fondamentale consiste à donner du contexte au LLM et à appeler des outils de façon répétée jusqu’à la fin de la tâche
- En empilant (stacking) par-dessus des boucles de validation, des boucles pilotées par événements et des boucles de hill climbing, on construit des agents plus efficaces
- Chaque couche de boucle peut être instrumentée avec les primitives LangChain, comme l’illustre l’exemple d’un agent interne de rédaction documentaire
- Le véritable potentiel ne réside pas dans le modèle lui-même, mais dans les boucles construites autour de l’agent
Boucle 1 : boucle d’agent
- Un agent est fondamentalement un modèle qui appelle des outils de manière répétée jusqu’à ce qu’une tâche soit terminée
create_agentde LangChain fournit cette boucle : il suffit de choisir un modèle et de connecter des outils (tools) pour obtenir une boucle d’agent fonctionnelle- Les outils sont ce qui permet à l’agent d’agir dans le monde réel
- Dans l’exemple de l’agent documentaire interne, la première étape de boucle reçoit une demande d’amélioration de documentation ; le modèle planifie et rédige les changements, puis utilise des outils pour cloner le repo, lire des fichiers, écrire la documentation et ouvrir une pull request
Niveau 2 : boucle de validation
- La boucle d’agent traite le travail, mais ne produit pas toujours un résultat exact ou cohérent du premier coup ; quand la cohérence est importante, on l’enveloppe d’une boucle de validation qui vérifie la sortie et, si elle est insuffisante, renvoie un feedback au modèle
- La boucle de validation ajoute un grader qui compare la sortie de l’agent à une rubric et, en cas d’échec, renvoie le résultat avec du feedback
- Le grader peut être déterministe ou agentique ; LLM as a judge en est l’exemple typique
RubricMiddlewaregère ce pattern, ou peut être branché via le hookafter_agentdecreate_agent
- Dans l’exemple de rédaction documentaire, le grader exécute des tests après chaque tentative pour vérifier que tous les liens fonctionnent, que tous les checks CI passent et que le diff reste limité au périmètre demandé, ce qui permet de capter des types d’erreurs sans revue manuelle
- Ajouter de la validation augmente la latence et le coût par exécution, mais cela vaut le coup dans la plupart des usages de production où la qualité compte plus que la vitesse
Niveau 3 : boucle pilotée par événements
- L’une des parties les plus importantes du développement d’agents est la couche d’intégration (integrations layer), qui relie l’agent à son écosystème pour qu’il s’exécute en arrière-plan
- Une boucle pilotée par événements exécute l’agent lorsqu’un événement survient, comme l’arrivée d’un nouveau document, le déclenchement d’un planning ou la réception d’un webhook
- L’agent n’est plus quelque chose qu’on invoque manuellement, mais un composant qui fonctionne en continu dans un système plus large
- LangSmith Deployment fournit l’infrastructure de déclenchement et prend en charge les plannings cron et les webhooks
- Un exemple populaire d’usage de cron est celui des heartbeats d’openclaw, qui transforment l’agent en assistant proactif toujours actif
- L’agent documentaire est piloté avec le no-code agent builder Fleet, dont les channels et schedules gèrent les déclencheurs événementiels et cron
- Lorsqu’un message arrive dans le canal Slack
#docs-plz, le canal déclenche l’agent documentaire
- Lorsqu’un message arrive dans le canal Slack
Niveau 4 : boucle de hill climbing
- Si les trois boucles précédentes automatisent le travail, la quatrième automatise l’amélioration elle-même
- Chaque exécution d’agent produit une trace qui enregistre le comportement du modèle, les outils appelés, le feedback du grader, etc. ; cette trace contient des signaux à forte valeur sur ce qui fonctionne ou non
- La boucle de hill climbing exécute un agent d’analyse sur la trace, puis réécrit la configuration du harness avec une configuration améliorée
- Cela inclut des ajustements de prompt/outils ou des ajustements du grader
- Dans LangSmith, cette quatrième boucle est instrumentée avec Engine, l’agent d’analyse de traces
- Dans l’exemple de l’agent documentaire, Engine est exécuté sur les traces pour détecter les problèmes ; si plusieurs traces signalent un problème potentiel, une issue est créée pour demander une modification du prompt ou de l’outil en cause
- Le point clé est que la flèche de retour ne remonte pas simplement tout en haut : elle rentre vers l’intérieur et met directement à jour la boucle d’agent, si bien que chaque cycle de la boucle externe rend la boucle interne plus efficace
-
Perspectives
- Les prompts et la configuration des outils sont ce qu’il est le plus facile d’améliorer, mais ce ne sont pas les seules options ; les équipes qui exploitent des modèles open weights peuvent relier la boucle de hill climbing au fine-tuning RL afin d’utiliser les traces ou les résultats d’évaluation comme signaux d’apprentissage pour améliorer le modèle lui-même
- Le contexte auxiliaire, comme la mémoire ou les compétences récupérées, peut aussi être amélioré de la même manière ; la boucle est un pattern, et ce qu’on choisit d’optimiser dépend de l’utilisateur
Supervision humaine et expertise
- L’automatisation ne signifie pas retirer l’humain de la boucle ; il existe à chaque couche des points où la supervision humaine apporte de la valeur
- Un grader automatique peut vérifier que des liens fonctionnent, mais remarquer qu’un cadrage est inadapté au public cible relève de l’humain ; ce jugement issu du contexte, de l’expérience et du discernement est précisément là où une revue humaine est nécessaire
- Une partie de l’expertise doit être codifiée dans les prompts/outils eux-mêmes, mais pour des actions sensibles comme des transactions financières ou des opérations sur base de données, une revue humaine en temps réel est indispensable
- LangChain permet d’instrumenter facilement ces points de contact dans toutes les boucles
- Boucle d’agent : demander une intervention humaine avant une action sensible ou un appel d’outil
- Boucle de validation : faire jouer à un humain le rôle de grader dans des workflows sensibles
- Boucle applicative : faire approuver la sortie par un humain avant retour à l’utilisateur final
- Boucle de hill climbing : faire passer les améliorations du harness par une revue humaine avant déploiement
- Tous les frameworks open source de LangChain proposent le human in the loop comme primitive de premier ordre
Récapitulatif
- Résumé de la manière dont les quatre boucles s’empilent
- Boucle d’agent : le modèle appelle des outils de manière répétée jusqu’à la fin de la tâche → automatisation du travail ; primitives :
create_agentet modèles pris en charge par LangChain - Boucle de validation : la sortie est notée selon une rubric et, en cas d’échec, relancée avec feedback → garantie de qualité et d’exactitude ; primitive :
RubricMiddleware - Boucle pilotée par événements : des événements déclenchent l’exécution d’un agent qui met à jour de vrais systèmes → automatisation à grande échelle ; primitives : déclencheurs cron/webhooks de LangSmith Deployment ou channels de Fleet
- Boucle de hill climbing : les traces d’exécution en production améliorent la configuration du harness via un agent d’analyse → amélioration du harness ; primitive : LangSmith Engine
- Boucle d’agent : le modèle appelle des outils de manière répétée jusqu’à la fin de la tâche → automatisation du travail ; primitives :
- C’est ce que swyx appelle loopcraft, c’est-à-dire la véritable ingénierie des boucles ; des leaders comme Steipete, Boris et Andrej arrivent eux aussi à la même conclusion : le potentiel des agents réside dans les boucles qu’on construit autour d’eux
- Les boucles 1 et 2 sont travaillées depuis longtemps, mais l’attention doit désormais se déplacer vers les boucles 3 et 4, où les agents sont intégrés dans l’écosystème, s’améliorent en continu selon des critères, et où la valeur s’accumule de manière composée
- Satya souligne l’enjeu au niveau organisationnel : les entreprises qui mettent en place tôt des boucles d’apprentissage où le jugement humain et le capital de tokens s’accumulent ensemble obtiennent un avantage difficile à répliquer
Aucun commentaire pour le moment.