1 points par GN⁺ 2025-03-12 | 1 commentaires | Partager sur WhatsApp
  • Le Factorio Learning Environment (FLE), basé sur le jeu Factorio, est un environnement conçu pour tester la planification à long terme, la génération de programmes et l’optimisation des ressources.
  • FLE propose des défis évolutifs, de l’automatisation de base aux usines complexes, avec deux configurations : Lab-play, qui consiste à accomplir 24 tâches structurées avec des ressources fixes, et Open-play, qui fournit des tâches illimitées.
  • Importance de FLE
    • FLE fournit l’infrastructure, les API et les métriques nécessaires pour évaluer la génération de code, le raisonnement spatial et la planification à long terme.
    • Les agents doivent extraire des ressources et gérer des chaînes de production complexes, en définissant puis en atteignant des objectifs de plus en plus complexes.
  • Environnement et agents
    • Les agents interagissent avec l’environnement via une API Python, soumettent des programmes et reçoivent un retour afin d’améliorer leur stratégie.
    • Les programmes des agents produisent un score de production (PS) et des jalons représentant la progression technologique.
  • Configuration expérimentale
    • Deux configurations expérimentales : Open-play et Lab-play.
    • Six modèles de langage de pointe ont été évalués : Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-Play
    • Les agents ont pour objectif de « construire la plus grande usine » dans un monde généré de manière procédurale.
    • Les capacités des agents sont évaluées via le score de production, les meilleurs modèles affichant des scores plus élevés et une courbe de croissance plus abrupte.
  • Lab-Play
    • Les agents reçoivent des ressources et doivent atteindre un objectif dans un temps limité.
    • Ils accomplissent une tâche consistant à produire 24 entités cibles, chacune devenant progressivement plus complexe.
  • Principaux enseignements
    • Les compétences en programmation sont prédictives des performances, tandis que l’investissement technologique et la planification stimulent la croissance.
    • Le raisonnement spatial et la récupération après erreur constituent des défis majeurs.
    • Les modèles présentent des styles de programmation différents.
  • Conclusion
    • Même les LLM les plus récents rencontrent des difficultés face aux problèmes de coordination et d’optimisation des tâches d’automatisation.
    • La complexité de l’arbre technologique de Factorio continue d’offrir un scénario d’évaluation exigeant, même à mesure que la recherche en IA progresse.
    • FLE est proposé comme une plateforme open source pour étudier les capacités des agents dans des domaines complexes et illimités.

1 commentaires

 
GN⁺ 2025-03-12
Commentaires sur Hacker News
  • J’aimerais postuler au labo Factorio d’Anthropic. Je me demande s’il y a un transfert de données multimodales. Le récent Qwen 2.5 VLM semble puissant pour sa taille

    • Il y a beaucoup de remarques sur un manque de capacités spatiales. Je serais curieux d’avoir votre avis sur la question du transfert d’images
    • Ce travail est impressionnant. J’ai envie de participer à ce projet dès maintenant
    • MCP semble être une tâche essentielle naturelle pour activer des bibliothèques Python
  • Il y avait un post HN sur une équipe qui a terminé Pokémon Rouge en utilisant l’apprentissage par renforcement. Je me demande si cette approche pourrait être utilisée pour Factorio

    • Les principales « tâches essentielles » de Factorio consistent à mettre en place l’automatisation de nouveaux objets et des packs de science
    • La fonction de récompense pourrait inclure une petite récompense pour le taux de production de chaque objet, une récompense moyenne pour l’automatisation d’un nouvel objet, et une grande récompense pour l’automatisation d’un nouveau pack de science
    • Dire à un agent Factorio « construis une grande usine » revient à dire à un agent Pokémon Rouge « termine le jeu »
  • Tous les modèles ont montré des limites en planification spatiale lors de la construction d’usines à sections multiples

    • Si les LLM sont faibles en raisonnement spatial, c’est parce qu’il n’y a pas beaucoup de données d’entraînement
    • Je me demande quelles capacités de raisonnement supplémentaires apparaîtraient une fois le raisonnement spatial résolu
  • On pourrait utiliser un LLM comme agent de haut niveau pour construire de manière autonome de grandes usines efficaces

    • Définition d’objectifs pour la production de ressources
    • Génération du graphe de l’usine et calcul du transport des ressources
    • Mappage du graphe vers un langage de description matériel
    • Compilation en layout FPGA 2D
    • Mappage du plan vers des designs Factorio concrets
  • Il y a beaucoup d’éléments intéressants à expérimenter. Un scénario de laboratoire avec une dimension temporelle semble être une bonne idée

    • J’aime le design du framework, différent des expériences sur DOTA 2 ou StarCraft 2
    • Je me demande s’il existe un projet de benchmark d’optimisation de layout
  • Je me demande s’il existe un benchmark de joueurs humains pour ce style d’interface

    • Je me demande quelle sensation donnerait un Factorio programmatique
  • Je me demande si, dans quelques années, tous les adversaires en jeu seront des LLM ayant accès à l’API de contrôle du jeu

    • Je me demande s’il existe des types de tâches spécifiques avec lesquels les modèles ont du mal
  • En tant qu’autre catégorie de tâche « Lab Play », le design de balanceurs pourrait être intéressant

    • Même de petits balanceurs peuvent être complexes
  • J’aurais aimé voir davantage d’images de plus grandes usines

    • Cela montre clairement une faiblesse majeure des LLM actuels
    • J’attends de plus grandes améliorations de l’apprentissage/de l’adaptation en ligne
  • Il est intéressant qu’il n’y ait que quelques scénarios complexes

    • J’ai toujours pensé que les agents de jeu ML avaient besoin de centaines de petits puzzles pour vraiment apprendre les mécaniques du jeu
    • On pourrait générer les scénarios de manière programmatique et les utiliser comme une banque de questions de test de QI
    • J’imagine que les agents ML apprennent plus vite lorsqu’on évalue des échantillons issus d’une banque de scénarios plus vaste