Microsoft Agent Lightning : un framework d’entraînement par apprentissage par renforcement pour agents IA sans modifier le code

(aisparkup.com)

13 points par davespark 2025-10-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Agent Lightning, dévoilé par Microsoft Research, est un framework innovant qui permet d’entraîner des agents IA par apprentissage par renforcement (RL) sans presque modifier le code existant. Il est compatible avec divers frameworks d’agents comme LangChain et AutoGen, et a montré des résultats concrets, notamment en faisant passer la précision de 73,2 % à 80,4 % lors de tests sur un agent SQL.

Caractéristiques principales

Architecture Training-Agent Disaggregation : séparation complète entre l’exécution de l’agent et l’entraînement RL. Grâce à une conception Sidecar, le framework réalise une collecte de données non intrusive (prompts, appels d’outils, signaux de récompense), rendant possible une modification de code nulle.
Indépendance vis-à-vis du framework : via une API compatible OpenAI, connexion immédiate à n’importe quel agent, notamment LangChain, OpenAI Agent SDK et CrewAI.
Algorithme GRPO : une variante de PPO qui apprend de manière économe en mémoire grâce à la comparaison des performances relatives au sein d’un groupe. LightningRL décompose les interactions complexes multi-tours en transitions pour gérer le credit assignment.

Exemple d’application concret : agent SQL

Entraînement appliqué à un agent SQL basé sur LangGraph (conversion de questions en langage naturel en requêtes SQL, exécution, boucle de correction d’erreurs) :

Processus d’entraînement : démarrage simplement en lançant le serveur puis en connectant le client. Exemple : utilisation du modèle Qwen2.5-Coder-3B.
Résultats : sur le dataset Spider, précision de 73,2 % → 80,4 %, et nombre moyen de transitions de 3,30 → 2,60, avec une efficacité en hausse. Le modèle 7B a atteint 84,4 %.

Installation et utilisation

pip install agentlightning (en option : [apo] ou [verl]).
Les examples GitHub proposent des cas Text-to-SQL, RAG, etc. Une optimisation sélective est également possible dans des systèmes multi-agents.
Algorithmes pris en charge : GRPO/PPO, Supervised Fine-tuning, APO (optimisation de prompts).

Perspectives

Projet open source avec une communauté qui s’active (DeepWerewolf, etc.). Des extensions sont prévues, comme des mécanismes de récompense plus riches, l’Off-policy RL et l’apprentissage par curriculum. En dissociant le développement des agents et leur optimisation, le framework ouvre la voie à l’ère des agents adaptatifs.