J’ai essayé de faire jouer RollerCoaster Tycoon à Claude Code
(labs.ramp.com)- Claude Code a été intégré au jeu open source RollerCoaster Tycoon 2 (OpenRCT2) dans le cadre d’un projet expérimental visant à laisser une IA gérer réellement un parc d’attractions
- L’IA analyse plus de 100 indicateurs, dont les finances, les plaintes des visiteurs et les pannes d’attractions, puis prend automatiquement des décisions de gestion comme installer des stands de boissons, embaucher du personnel ou ajuster le prix d’entrée
- Toutes les actions dans le jeu sont exécutées en ligne de commande via l’outil CLI rctctl, conçu sur une structure similaire à kubectl de Kubernetes
- Claude s’est montré performant pour l’analyse de données, l’ajustement des prix et la gestion du personnel, mais a révélé des limites sur les tâches spatiales comme la connexion des chemins, le placement des montagnes russes et la perception du terrain
- L’expérience a confirmé que le point clé dans la conception d’un agent est la lisibilité de l’environnement et la qualité de l’interface
Aperçu du projet
- Ramp Labs a intégré Claude Code à RollerCoaster Tycoon 2 pour tester la capacité d’une IA à gérer directement un parc
- Claude analyse plus de 100 données du jeu, comme les finances, la satisfaction des visiteurs et l’état des attractions
- À partir de ces résultats, il propose automatiquement des actions comme ajouter des stands de boissons, embaucher des mécaniciens ou augmenter le prix d’entrée
- L’objectif de l’expérience était de tirer des enseignements sur la conception d’agents IA dans un environnement B2B SaaS
- RollerCoaster Tycoon a été choisi car il reflète une gestion d’entreprise centrée sur le client et une boucle de feedback numérique
Pourquoi RollerCoaster Tycoon
- Ramp développe actuellement de petits agents spécialisés par tâche, avec une approche qui tient compte des limites de sécurité et de contexte
- Mais il existait aussi une volonté d’expérimenter avec un agent unique doté d’autorisations très larges
- RollerCoaster Tycoon offre un environnement combinant économie, relation client et gestion opérationnelle, avec une structure proche de l’exploitation d’un SaaS
- L’interface du jeu ressemble à un dashboard B2B SaaS et s’accorde bien avec l’interface terminal rétrofuturiste de Claude
Capacités et limites de Claude
- Un fork d’OpenRCT2 a été créé avec une fenêtre terminal supplémentaire, afin que Claude puisse contrôler le jeu en ligne de commande
- Le CLI rctctl couvre toutes les actions disponibles pour l’utilisateur et communique avec l’état du jeu via JSON-RPC
- Claude perçoit les informations spatiales non pas visuellement, mais via une sortie cartographique ASCII
Points forts de Claude
- Connaissance du jeu : il possède une bonne compréhension de l’univers RCT et fonctionne naturellement même dans un environnement de jeu des années 1990
- Collecte d’informations : il sait agréger et analyser des indicateurs variés comme les retours visiteurs et les données financières
- Manipulation numérique : il excelle dans les tâches non spatiales comme l’ouverture ou la fermeture d’attractions, l’ajustement des prix, l’embauche du personnel ou les campagnes marketing
- Placement d’installations : il peut placer de façon fiable des structures simples comme des toilettes ou des stands de boissons
Faiblesses de Claude
- Connexion des chemins : difficulté sur les tâches spatiales comme le routage ou la connexion entre entrées et sorties
- Placement des montagnes russes : échec dans la détection des obstacles et du relief lors de l’installation de grandes attractions
- Perception de l’espace en 3D : incapacité à gérer les pentes, les structures souterraines ou la conception de coasters sur mesure
- En résumé, Claude est fort en gestion fondée sur l’information, mais faible pour les manipulations visuelles et spatiales
Processus de build
- Sur la base d’OpenRCT2 (C++), le projet a ajouté une fenêtre terminal Claude, le CLI rctctl, une couche RPC et du code de test
- La première version a été planifiée avec ChatGPT o3-Pro Deep Research, puis réimplémentée avec GPT-5.1-codex
- Le travail a demandé plus de 40 heures au total, et l’absence de boucle de feedback a été identifiée comme le principal goulot d’étranglement
- En permettant à Claude de rédiger lui-même des rapports de bugs dans le dépôt, l’efficacité de la QA a été améliorée
Principaux enseignements
- Lisibilité de l’environnement (Environment Legibility) : Claude excelle avec des interfaces de données claires, mais reste faible face à des représentations spatiales textuelles
- Valeur des agents de codage : les mises à jour récentes des modèles (Claude Opus 4.5, etc.) sont immédiatement exploitables, ce qui accélère le développement
- Importance de la boucle de développement : sans boucle de QA automatisée, la productivité chute fortement
- Avantage de l’expérience directe : le meilleur moyen de comprendre le fonctionnement d’un LLM reste l’expérimentation et la pratique
Exécution et informations open source
- Nécessite macOS (Sonoma ou supérieur), Xcode, CMake, Ninja et RCT2 (version officielle)
- Le CLI
rctctladopte une structure de commandes de type kubectl, permettant à Claude de contrôler le jeu via JSON-RPC - Résultats du build :
- OpenRCT2 (version avec terminal intégré)
- rctctl (outil CLI)
- Ressources sprite
- L’ensemble du code est publié sur GitHub (jaysobel/OpenRCT2), avec une démonstration en direct disponible sur Twitch
Conclusion
- Claude Code montre à la fois le potentiel et les limites de l’automatisation opérationnelle
- RollerCoaster Tycoon joue le rôle de terrain d’expérimentation transitoire entre interface graphique et système intelligent
- Idée clé : la réussite ou l’échec d’un agent IA dépend de la clarté de l’environnement et de la qualité de conception de l’interface
1 commentaires
Réactions sur Hacker News
Je suis toujours frustré par le niveau trop faible des outils utilisés par mon LLM
Dans mon IDE, je fais du refactoring, du suivi de symboles, j’affiche les usages d’une fonction en un clic, alors que le LLM n’utilise que des commandes primitives comme grep, diff ou cat
Je me demande s’il existe des tentatives pour donner au LLM de meilleurs outils d’écriture et de refactoring de code
Même si c’est indiqué dans AGENTS.md, il l’ignore et revient à une méthode simple, ce qui est frustrant
Si JetBrains avait relié à l’IA ses capacités de refactoring et d’inspection de code, ils auraient sans doute pris beaucoup d’avance
Les LLM ont plutôt un avantage pour résoudre des problèmes en combinant des outils de bas niveau
Là où un humain hésiterait devant un script Python complexe de 20 lignes, un LLM peut le produire en 0,5 seconde
Comme il comprend et assemble rapidement des fragments de code, les fonctions de refactoring peuvent au contraire le perturber
Lui donner trop d’outils risque de brouiller son jugement
L’auteur ici. Je partage des liens bonus
Script de session utilisant claude-code-transcripts de Simon Willison
Post Reddit
Repo du projet OpenRCT2
Claude est fort sur les entrées basées sur l’image, mais peut être faible face à des schémas ASCII
Comme dans la conception d’agents du monde réel, les limites d’un agent généraliste tiennent à la visibilité de l’environnement et à la puissance de l’interface
C’est pourquoi il est plus juste de voir les agents comme des systèmes qui automatisent non pas « l’intelligence », mais « l’assiduité »
Il y a eu un incident où le mot “revert” a été mal employé et Codex a exécuté
git revert, annulant effectivement le travail en coursgit revertn’est pas une commande destructive ; s’il y a eu perte de données, c’était probablement plutôt ungit reset --hardjj statusdans le prompt rendrait les choses plus sûresIl est impressionnant que ce jeu ait été développé en assembleur par une seule personne
J’aimerais retrouver le développeur pour le remercier
La tentative de Claude Code est elle aussi impressionnante, et ça m’intéresse
Le fait d’avoir mené le projet à bien en vibe-coding sans rien connaître au C++ est intéressant
Les jeunes générations d’aujourd’hui semblent mal mesurer la valeur d’un tel environnement
L’interview à la fin de la vidéo était marquante
Des outils de collaboration entre l’IA et l’humain comme une CLI style kubectl, le feedback de Claude ou des systèmes d’alerte deviennent de plus en plus importants
Si on fournit aussi à l’IA un contexte que l’humain peut comprendre visuellement, on peut obtenir de bien meilleurs résultats
Le simple fait d’augmenter le contexte ne produit pas d’apprentissage ; au final, il faut du fine-tuning
L’article était intéressant, mais il manquait une analyse des résultats sur les performances réelles de l’IA dans le jeu
Elle avait du mal à comprendre une carte 2D et n’a construit que des toilettes et un stand de hot-dogs
Avec un modèle multimodal, ça aurait probablement été bien meilleur
Je me demandais comment vérifier la quantité de contexte restante dans Claude Code
/contextIl existe même un plugin qui visualise la capacité restante avec une barre de couleur
Je pense que des jeux au tour par tour comme Civilization conviendraient mieux à ce type d’expérimentation
Parce que la carte suit une structure en grille et que la progression se fait tour par tour