16 points par GN⁺ 2026-01-19 | 1 commentaires | Partager sur WhatsApp
  • Claude Code a été intégré au jeu open source RollerCoaster Tycoon 2 (OpenRCT2) dans le cadre d’un projet expérimental visant à laisser une IA gérer réellement un parc d’attractions
  • L’IA analyse plus de 100 indicateurs, dont les finances, les plaintes des visiteurs et les pannes d’attractions, puis prend automatiquement des décisions de gestion comme installer des stands de boissons, embaucher du personnel ou ajuster le prix d’entrée
  • Toutes les actions dans le jeu sont exécutées en ligne de commande via l’outil CLI rctctl, conçu sur une structure similaire à kubectl de Kubernetes
  • Claude s’est montré performant pour l’analyse de données, l’ajustement des prix et la gestion du personnel, mais a révélé des limites sur les tâches spatiales comme la connexion des chemins, le placement des montagnes russes et la perception du terrain
  • L’expérience a confirmé que le point clé dans la conception d’un agent est la lisibilité de l’environnement et la qualité de l’interface

Aperçu du projet

  • Ramp Labs a intégré Claude Code à RollerCoaster Tycoon 2 pour tester la capacité d’une IA à gérer directement un parc
    • Claude analyse plus de 100 données du jeu, comme les finances, la satisfaction des visiteurs et l’état des attractions
    • À partir de ces résultats, il propose automatiquement des actions comme ajouter des stands de boissons, embaucher des mécaniciens ou augmenter le prix d’entrée
  • L’objectif de l’expérience était de tirer des enseignements sur la conception d’agents IA dans un environnement B2B SaaS
  • RollerCoaster Tycoon a été choisi car il reflète une gestion d’entreprise centrée sur le client et une boucle de feedback numérique

Pourquoi RollerCoaster Tycoon

  • Ramp développe actuellement de petits agents spécialisés par tâche, avec une approche qui tient compte des limites de sécurité et de contexte
  • Mais il existait aussi une volonté d’expérimenter avec un agent unique doté d’autorisations très larges
  • RollerCoaster Tycoon offre un environnement combinant économie, relation client et gestion opérationnelle, avec une structure proche de l’exploitation d’un SaaS
  • L’interface du jeu ressemble à un dashboard B2B SaaS et s’accorde bien avec l’interface terminal rétrofuturiste de Claude
Publicité

Capacités et limites de Claude

  • Un fork d’OpenRCT2 a été créé avec une fenêtre terminal supplémentaire, afin que Claude puisse contrôler le jeu en ligne de commande
  • Le CLI rctctl couvre toutes les actions disponibles pour l’utilisateur et communique avec l’état du jeu via JSON-RPC
  • Claude perçoit les informations spatiales non pas visuellement, mais via une sortie cartographique ASCII

Points forts de Claude

  • Connaissance du jeu : il possède une bonne compréhension de l’univers RCT et fonctionne naturellement même dans un environnement de jeu des années 1990
  • Collecte d’informations : il sait agréger et analyser des indicateurs variés comme les retours visiteurs et les données financières
  • Manipulation numérique : il excelle dans les tâches non spatiales comme l’ouverture ou la fermeture d’attractions, l’ajustement des prix, l’embauche du personnel ou les campagnes marketing
  • Placement d’installations : il peut placer de façon fiable des structures simples comme des toilettes ou des stands de boissons

Faiblesses de Claude

  • Connexion des chemins : difficulté sur les tâches spatiales comme le routage ou la connexion entre entrées et sorties
  • Placement des montagnes russes : échec dans la détection des obstacles et du relief lors de l’installation de grandes attractions
  • Perception de l’espace en 3D : incapacité à gérer les pentes, les structures souterraines ou la conception de coasters sur mesure
  • En résumé, Claude est fort en gestion fondée sur l’information, mais faible pour les manipulations visuelles et spatiales

Processus de build

  • Sur la base d’OpenRCT2 (C++), le projet a ajouté une fenêtre terminal Claude, le CLI rctctl, une couche RPC et du code de test
  • La première version a été planifiée avec ChatGPT o3-Pro Deep Research, puis réimplémentée avec GPT-5.1-codex
  • Le travail a demandé plus de 40 heures au total, et l’absence de boucle de feedback a été identifiée comme le principal goulot d’étranglement
  • En permettant à Claude de rédiger lui-même des rapports de bugs dans le dépôt, l’efficacité de la QA a été améliorée
Publicité

Principaux enseignements

  • Lisibilité de l’environnement (Environment Legibility) : Claude excelle avec des interfaces de données claires, mais reste faible face à des représentations spatiales textuelles
  • Valeur des agents de codage : les mises à jour récentes des modèles (Claude Opus 4.5, etc.) sont immédiatement exploitables, ce qui accélère le développement
  • Importance de la boucle de développement : sans boucle de QA automatisée, la productivité chute fortement
  • Avantage de l’expérience directe : le meilleur moyen de comprendre le fonctionnement d’un LLM reste l’expérimentation et la pratique

Exécution et informations open source

  • Nécessite macOS (Sonoma ou supérieur), Xcode, CMake, Ninja et RCT2 (version officielle)
  • Le CLI rctctl adopte une structure de commandes de type kubectl, permettant à Claude de contrôler le jeu via JSON-RPC
  • Résultats du build :
    • OpenRCT2 (version avec terminal intégré)
    • rctctl (outil CLI)
    • Ressources sprite
  • L’ensemble du code est publié sur GitHub (jaysobel/OpenRCT2), avec une démonstration en direct disponible sur Twitch

Conclusion

  • Claude Code montre à la fois le potentiel et les limites de l’automatisation opérationnelle
  • RollerCoaster Tycoon joue le rôle de terrain d’expérimentation transitoire entre interface graphique et système intelligent
  • Idée clé : la réussite ou l’échec d’un agent IA dépend de la clarté de l’environnement et de la qualité de conception de l’interface

1 commentaires

 
GN⁺ 2026-01-19
Réactions sur Hacker News
  • Je suis toujours frustré par le niveau trop faible des outils utilisés par mon LLM
    Dans mon IDE, je fais du refactoring, du suivi de symboles, j’affiche les usages d’une fonction en un clic, alors que le LLM n’utilise que des commandes primitives comme grep, diff ou cat
    Je me demande s’il existe des tentatives pour donner au LLM de meilleurs outils d’écriture et de refactoring de code

    • Même en lui donnant accès à VSCode Diagnostics ou à un serveur LSP, le LLM essaie toujours d’utiliser uniquement les outils CLI de base
      Même si c’est indiqué dans AGENTS.md, il l’ignore et revient à une méthode simple, ce qui est frustrant
    • Je suis surpris que la plupart des outils de développement IA soient basés sur VSCode
      Si JetBrains avait relié à l’IA ses capacités de refactoring et d’inspection de code, ils auraient sans doute pris beaucoup d’avance
    • Claude Code a pris officiellement en charge LSP dans la version de décembre 2025, mais il semble toujours entraîné autour d’outils simples
      Les LLM ont plutôt un avantage pour résoudre des problèmes en combinant des outils de bas niveau
      Là où un humain hésiterait devant un script Python complexe de 20 lignes, un LLM peut le produire en 0,5 seconde
    • Zed Editor fournit directement au LLM des fonctions basées sur LSP, ce qui réduit la dépendance à grep
    • Un LLM n’a pas forcément besoin des fonctions d’un IDE comme un humain
      Comme il comprend et assemble rapidement des fragments de code, les fonctions de refactoring peuvent au contraire le perturber
      Lui donner trop d’outils risque de brouiller son jugement
  • L’auteur ici. Je partage des liens bonus
    Script de session utilisant claude-code-transcripts de Simon Willison
    Post Reddit
    Repo du projet OpenRCT2

    • Je me demande si l’évaluation a été faite à partir de captures d’écran ou d’un affichage visuel, plutôt que via la CLI
      Claude est fort sur les entrées basées sur l’image, mais peut être faible face à des schémas ASCII
    • Certains mentionnent les limites de perception visuelle et spatiale de Claude, en estimant que les modèles d’OpenAI seraient meilleurs pour comprendre les images
  • Comme dans la conception d’agents du monde réel, les limites d’un agent généraliste tiennent à la visibilité de l’environnement et à la puissance de l’interface
    C’est pourquoi il est plus juste de voir les agents comme des systèmes qui automatisent non pas « l’intelligence », mais « l’assiduité »

  • Il y a eu un incident où le mot “revert” a été mal employé et Codex a exécuté git revert, annulant effectivement le travail en cours

    • Je suis surpris que ces outils ne conservent pas les journaux d’exécution de manière rejouable
      git revert n’est pas une commande destructive ; s’il y a eu perte de données, c’était probablement plutôt un git reset --hard
    • Pour éviter ce genre d’accident, il faudrait une fonction de contrôle des autorisations de commande
    • Certains disent donc qu’il vaut mieux utiliser Jujutsu ; ajouter jj status dans le prompt rendrait les choses plus sûres
  • Il est impressionnant que ce jeu ait été développé en assembleur par une seule personne
    J’aimerais retrouver le développeur pour le remercier
    La tentative de Claude Code est elle aussi impressionnante, et ça m’intéresse

  • Le fait d’avoir mené le projet à bien en vibe-coding sans rien connaître au C++ est intéressant

    • D’habitude, avec le vibe-coding, on entend « fini en quelques heures », mais ici le fait d’avoir donné un calendrier réaliste est rafraîchissant
    • Leurs tâtonnements et leur manière de résoudre les problèmes étaient vraiment intéressants
    • Si quelque chose comme ça avait existé en 1997, j’y aurais mis toutes mes économies
      Les jeunes générations d’aujourd’hui semblent mal mesurer la valeur d’un tel environnement
  • L’interview à la fin de la vidéo était marquante
    Des outils de collaboration entre l’IA et l’humain comme une CLI style kubectl, le feedback de Claude ou des systèmes d’alerte deviennent de plus en plus importants
    Si on fournit aussi à l’IA un contexte que l’humain peut comprendre visuellement, on peut obtenir de bien meilleurs résultats

    • Mais une structure où l’IA s’améliore elle-même ne fonctionne pas vraiment en pratique
      Le simple fait d’augmenter le contexte ne produit pas d’apprentissage ; au final, il faut du fine-tuning
  • L’article était intéressant, mais il manquait une analyse des résultats sur les performances réelles de l’IA dans le jeu

    • En pratique, elle gérait bien les finances, mais était faible pour construire des bâtiments
      Elle avait du mal à comprendre une carte 2D et n’a construit que des toilettes et un stand de hot-dogs
      Avec un modèle multimodal, ça aurait probablement été bien meilleur
    • Certains pensent que le cœur de l’IA, c’est la capacité de génération, pas la vérification
  • Je me demandais comment vérifier la quantité de contexte restante dans Claude Code

    • On peut le voir directement avec la commande /context
    • On peut aussi ajouter un indicateur d’utilisation du contexte dans la barre d’état
      Il existe même un plugin qui visualise la capacité restante avec une barre de couleur
  • Je pense que des jeux au tour par tour comme Civilization conviendraient mieux à ce type d’expérimentation
    Parce que la carte suit une structure en grille et que la progression se fait tour par tour