- Simplifie l’affinage d’agents basés sur des LLM via l’apprentissage par renforcement (RL)
- Actuellement, LlamaGym fournit une classe d’abstraction unique
Agent qui permet d’itérer et d’expérimenter rapidement sur le prompting des agents et les hyperparamètres dans un environnement Gym
- Les utilisateurs peuvent définir leur propre agent basé sur un LLM en implémentant 3 méthodes abstraites de la classe
Agent
Utilisation
- Après avoir installé LlamaGym, créez un agent joueur de blackjack en implémentant 3 méthodes abstraites dans la classe
Agent.
- Définissez le LLM de base, instanciez l’agent, puis écrivez la boucle RL afin que l’agent puisse agir, recevoir des récompenses et terminer les épisodes.
- L’apprentissage en ligne via l’apprentissage par renforcement comporte des aspects difficiles, un ajustement des hyperparamètres est donc nécessaire, et une étape d’affinage supervisé peut être utile.
Aucun commentaire pour le moment.