HyperAgents de Meta — quand les agents conçoivent eux-mêmes leur propre harness

(cobusgreyling.medium.com)

46 points par GN⁺ 18 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

HyperAgents, présenté conjointement par Meta et UBC, est un framework d’agents IA auto-référentiels capable de modifier non seulement le code d’exécution des tâches, mais aussi le mécanisme d’amélioration lui-même
En répétant l’auto-amélioration dans des domaines variés comme le codage, la revue d’articles, la robotique ou l’évaluation de mathématiques, les agents ont inventé de manière autonome une mémoire persistante, un suivi des performances et des pipelines de vérification multi-étapes
Ces composants construits par les agents eux-mêmes correspondent exactement aux éléments clés du harness de production que les développeurs créaient jusque-là manuellement
Le harness n’est pas seulement une commodité de développement, mais une architecture convergente des systèmes agentiques, et les agents sont en train de passer du statut de consommateurs d’infrastructure à celui de producteurs
Le rôle des développeurs évolue : il ne s’agit plus de construire directement le harness, mais de concevoir les conditions initiales permettant aux agents de faire évoluer un harness efficace

Présentation de HyperAgents

HyperAgents, présenté dans un nouvel article de Meta et UBC, est un agent auto-référentiel capable de modifier non seulement les actions de résolution des tâches, mais aussi le mécanisme même qui génère ses améliorations futures
Ce qui retient l’attention, c’est le point de convergence atteint lorsqu’on laisse l’agent s’auto-améliorer : il réinvente les mêmes composants que ceux que les développeurs construisent aujourd’hui manuellement
Le Hyperagent est défini comme un producteur (producer) d’infrastructure

HyperAgents vs Universal Agents

Un Universal Agent est un exécuteur (executor) hautement adaptatif qui résout presque n’importe quel problème à la volée en écrivant du code, mais qui fonctionne toujours à l’intérieur d’une infrastructure conçue par des humains, le harness
Un Hyperagent, en tant que producteur d’infrastructure, démarre depuis un état minimal puis amorce lui-même un harness de niveau production via une évolution auto-référentielle

Définition du harness et composants clés

Le harness est le système logiciel qui gouverne le fonctionnement d’un agent IA : il gère les outils, la mémoire, les nouvelles tentatives, le context engineering et la vérification afin que le modèle puisse se concentrer sur le raisonnement
Les 6 composants clés nécessaires à un harness de production :
- Tool Integration : enregistrement et exécution des outils
- Memory & State : persistance des résultats entre les étapes
- Context Engineering : assemblage dynamique des prompts
- Planning : décomposition des tâches complexes en étapes
- Verification : validation des sorties par rapport aux règles
- Modularity : activation/désactivation indépendante des composants
Traditionnellement, il s’agit d’un domaine d’ingénierie humaine dans lequel les développeurs écrivent eux-mêmes la classe ToolRegistry, MemoryManager, les boucles de retry, la logique d’assemblage des prompts, etc.
La question posée par l’article sur HyperAgents est : « Que se passe-t-il si l’agent construit lui-même ces composants ? »

Comment fonctionnent les HyperAgents

Le framework présenté dans l’article s’appelle DGM-Hyperagents (DGM-H), et son idée centrale est simple
Le Hyperagent est un programme unique modifiable qui contient deux éléments :
- un Task Agent qui résout la tâche donnée
- un Meta Agent qui modifie le Task Agent et lui-même
Le mot-clé central est « itself » : le Meta Agent peut réécrire son propre code, et le mécanisme même qui produit les améliorations devient lui aussi un objet d’amélioration
L’article appelle cela la métamodification de soi métacognitive (metacognitive self-modification)
Le fonctionnement repose sur une boucle d’évolution :
- démarrage à partir d’un agent de base
- le Meta Agent lit le code de l’agent, analyse ses performances passées et génère une version modifiée
- la version modifiée est évaluée et, si ses performances sont meilleures, ajoutée à l’archive
- une sélection est faite depuis l’archive, puis le processus recommence
Après des centaines d’itérations, l’agent devient non seulement meilleur dans la tâche, mais améliore aussi sa propre capacité à mieux s’améliorer

Composants apparus via l’auto-amélioration

En menant l’auto-amélioration dans des domaines variés comme le codage, la revue d’articles, la conception de récompenses en robotique ou l’évaluation de mathématiques olympiques, les agents ont inventé de manière autonome les éléments suivants :

Mémoire persistante (Persistent Memory)

Sans instruction de développeur, l’agent a fait évoluer de lui-même un système de mémoire
Cela s’explique par le fait qu’un agent capable de se souvenir des résultats passés, de suivre les tendances de performance et de stocker des insights synthétisés surpassait les autres
Exemples d’entrées mémoire donnés dans l’article : stockage d’hypothèses causales, identification de la génération la plus performante, diagnostic de sur-modification, proposition de méthodes pour combiner des stratégies gagnantes

Suivi des performances (Performance Tracking)

L’agent a construit par lui-même sa propre observabilité
Cela inclut des moyennes mobiles sur les tendances d’amélioration, des statistiques agrégées par génération, ainsi qu’un historique des scores par domaine
C’est la même fonction que le suivi des tokens et l’audit logging que les développeurs mettent en place manuellement dans un harness

Pipelines d’évaluation multi-étapes (Multi-stage Evaluation Pipelines)

Dans le domaine de la revue d’articles, l’agent a évolué d’instructions de comportement superficielles vers un pipeline d’évaluation multi-étapes explicite
Il comprend des checklists, des règles de décision et des critères clairement définis
Cela résulte du fait que l’agent a construit lui-même un verifier

Protocoles de décision avec seuils (Decision Protocols with Thresholds)

L’agent a développé des frontières de décision explicites : taux d’acceptation/rejet, seuils de score, niveaux de confiance, etc.
Cela correspond exactement aux contrôles fondés sur des règles qu’implémente un verifier de harness

Bases de connaissances métier (Domain Knowledge Bases)

Dans la conception de récompenses en robotique, l’agent a progressivement construit et affiné sa propre base de connaissances interne, incluant les contraintes d’environnement, les variables d’état valides et des heuristiques de mise à l’échelle des récompenses
C’est le résultat d’un context engineering dans lequel l’agent apprend à assembler le bon contexte pour lui-même

Retry et auto-correction (Retry and Self-Correction)

Lorsqu’une modification de l’agent dégradait les performances, les générations suivantes diagnostiquaient la régression et la corrigeaient
C’est le même schéma que les boucles de retry avec injection de feedback implémentées par un harness

Vue d’ensemble — une tendance qui converge en un seul mouvement

Des motifs observés dans plusieurs recherches se relient en une même dynamique :
- Harness Engineering : définition des 6 composants que les développeurs construisent autour des agents
- From Copilot to Codex : passage du code écrit par l’humain au code délégué aux agents
- Universal Agents : l’idée que les capacités de codage rendent les agents généralistes
- HyperAgents : les agents construisent leur propre harness via l’auto-modification
Les agents passent du statut de consommateurs d’infrastructure à producteurs, et de l’exécution à l’intérieur d’un harness à l’ingénierie du harness lui-même
Démonstration concrète de l’article sur DGM-H : en partant d’un agent nu ne disposant que d’un seul appel LLM, puis après des centaines d’itérations d’auto-modification, il évolue vers un système doté de mémoire persistante, de suivi des performances, de pipelines d’évaluation multi-étapes, de bases de connaissances métier et d’une structure de code modulaire
Le rôle des développeurs ne disparaît pas, il est en transition, et l’article souligne que la supervision humaine reste indispensable
Le rôle évolue donc de la construction directe du harness vers la conception des conditions initiales permettant aux agents de faire émerger un harness efficace

HyperAgents de Meta — quand les agents conçoivent eux-mêmes leur propre harness

Présentation de HyperAgents

HyperAgents vs Universal Agents

Définition du harness et composants clés

Comment fonctionnent les HyperAgents

Composants apparus via l’auto-amélioration

Mémoire persistante (Persistent Memory)

Suivi des performances (Performance Tracking)

Pipelines d’évaluation multi-étapes (Multi-stage Evaluation Pipelines)

Protocoles de décision avec seuils (Decision Protocols with Thresholds)

Bases de connaissances métier (Domain Knowledge Bases)

Retry et auto-correction (Retry and Self-Correction)

Vue d’ensemble — une tendance qui converge en un seul mouvement

À lire aussi

Aucun commentaire pour le moment.