- Le Factorio Learning Environment (FLE), basé sur le jeu Factorio, est un environnement conçu pour tester la planification à long terme, la génération de programmes et l’optimisation des ressources.
- FLE propose des défis évolutifs, de l’automatisation de base aux usines complexes, avec deux configurations :
Lab-play, qui consiste à accomplir 24 tâches structurées avec des ressources fixes, et Open-play, qui fournit des tâches illimitées.
- Importance de FLE
- FLE fournit l’infrastructure, les API et les métriques nécessaires pour évaluer la génération de code, le raisonnement spatial et la planification à long terme.
- Les agents doivent extraire des ressources et gérer des chaînes de production complexes, en définissant puis en atteignant des objectifs de plus en plus complexes.
- Environnement et agents
- Les agents interagissent avec l’environnement via une API Python, soumettent des programmes et reçoivent un retour afin d’améliorer leur stratégie.
- Les programmes des agents produisent un score de production (PS) et des jalons représentant la progression technologique.
- Configuration expérimentale
- Deux configurations expérimentales :
Open-play et Lab-play.
- Six modèles de langage de pointe ont été évalués : Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
- Open-Play
- Les agents ont pour objectif de « construire la plus grande usine » dans un monde généré de manière procédurale.
- Les capacités des agents sont évaluées via le score de production, les meilleurs modèles affichant des scores plus élevés et une courbe de croissance plus abrupte.
- Lab-Play
- Les agents reçoivent des ressources et doivent atteindre un objectif dans un temps limité.
- Ils accomplissent une tâche consistant à produire 24 entités cibles, chacune devenant progressivement plus complexe.
- Principaux enseignements
- Les compétences en programmation sont prédictives des performances, tandis que l’investissement technologique et la planification stimulent la croissance.
- Le raisonnement spatial et la récupération après erreur constituent des défis majeurs.
- Les modèles présentent des styles de programmation différents.
- Conclusion
- Même les LLM les plus récents rencontrent des difficultés face aux problèmes de coordination et d’optimisation des tâches d’automatisation.
- La complexité de l’arbre technologique de Factorio continue d’offrir un scénario d’évaluation exigeant, même à mesure que la recherche en IA progresse.
- FLE est proposé comme une plateforme open source pour étudier les capacités des agents dans des domaines complexes et illimités.
1 commentaires
Commentaires sur Hacker News
J’aimerais postuler au labo Factorio d’Anthropic. Je me demande s’il y a un transfert de données multimodales. Le récent Qwen 2.5 VLM semble puissant pour sa taille
Il y avait un post HN sur une équipe qui a terminé Pokémon Rouge en utilisant l’apprentissage par renforcement. Je me demande si cette approche pourrait être utilisée pour Factorio
Tous les modèles ont montré des limites en planification spatiale lors de la construction d’usines à sections multiples
On pourrait utiliser un LLM comme agent de haut niveau pour construire de manière autonome de grandes usines efficaces
Il y a beaucoup d’éléments intéressants à expérimenter. Un scénario de laboratoire avec une dimension temporelle semble être une bonne idée
Je me demande s’il existe un benchmark de joueurs humains pour ce style d’interface
Je me demande si, dans quelques années, tous les adversaires en jeu seront des LLM ayant accès à l’API de contrôle du jeu
En tant qu’autre catégorie de tâche « Lab Play », le design de balanceurs pourrait être intéressant
J’aurais aimé voir davantage d’images de plus grandes usines
Il est intéressant qu’il n’y ait que quelques scénarios complexes