- Le benchmark OpenSCAD Pantheon évalue si des outils de code IA peuvent reproduire un monument en code CAD paramétrique à partir de seulement deux images de référence et d’un court prompt
- Google Antigravity 2.0 / Gemini 3.5 Flash High a obtenu la meilleure note avec 4,5/5 en qualité, en reproduisant jusqu’aux dimensions réelles du Panthéon, à son inscription et au motif à caissons du plafond intérieur
- Codex 5.5 High présentait une forte densité de détails, mais a été pénalisé à cause d’une discordance entre l’aperçu PNG et le STL final ; Sonnet a produit le modèle le plus propre parmi les exécutions autonomes existantes
- Cursor a été le plus rapide, mais aussi le moins bon en qualité, tandis que ModelRift/Gemini Flash 3.0 a atteint 3,8/5 avec une approche human-in-the-loop enrichie de retours visuels
- Tous les systèmes ont exécuté le rendu via l’interface en ligne de commande d’OpenSCAD, mais le goulot d’étranglement n’était pas l’accès aux outils : c’était le jugement géométrique et la validation du maillage final
Objectif du benchmark et nature de la tâche
- ModelRift génère du code OpenSCAD pour tous ses modèles 3D ; la capacité d’un LLM à traiter la géométrie spatiale influence donc directement la qualité réelle du modèle
- Ce test était un petit benchmark pratique dans lequel plusieurs outils de code IA recevaient la même tâche : implémenter le Panthéon en OpenSCAD à partir d’images de référence et d’un prompt court
- L’objectif était de vérifier leur capacité à transformer une référence architecturale en code CAD paramétrique, à produire un aperçu PNG avec la CLI OpenSCAD, puis à itérer pour améliorer le résultat
- Le prompt demandait d’inclure la rotonde, le dôme, le portique, les colonnes, le fronton et les détails de façade du Panthéon
see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png) and iterate until you are happy with the result.
Pourquoi avoir choisi le Panthéon et OpenSCAD
- Le Panthéon constitue une tâche plus riche qu’un simple test de syntaxe
difference(),cube()oucylinder(), tout en évitant les géométries organiques ou de personnage qu’OpenSCAD gère mal - Sa structure principale — rotonde circulaire et dôme, oculus central, portique rectiligne, colonnes, soubassement à degrés et fronton triangulaire — facilite la comparaison entre résultats
- Même un résultat faible peut ressembler à un bâtiment surmonté d’un dôme, mais un bon résultat doit mieux restituer la relation entre le tambour circulaire, le portique rectangulaire, les anneaux du dôme et la façade avant
- OpenSCAD s’y prête bien parce que le modèle est du code en texte brut et que son vocabulaire est réduit, ce qui en fait une bonne cible pour la génération géométrique par LLM
- Des consignes comme « répéter 28 colonnes autour d’un rayon » ou « soustraire l’oculus du dôme » peuvent être exprimées directement dans le code source
- Le résultat est inspectable, reproductible et facile à corriger : une erreur d’espacement des colonnes se corrige en modifiant un paramètre ou une boucle, pas un état de scène caché
- Le choix d’OpenSCAD comme base de ModelRift est détaillé dans Why we built ModelRift on OpenSCAD
- Son inconvénient est qu’OpenSCAD n’est pas un outil de sculpture ; il est surtout adapté aux objets compositionnels, paramétriques et hard-surface
Résultats globaux
- Les notes sont des évaluations relatives à l’intérieur de ce benchmark, pas un classement général des modèles
- Le score de temps reflète le temps d’implémentation observé, et non l’heure de publication du projet
- Les scores de qualité ont été attribués de façon prudente ; même le meilleur résultat reste loin d’un modèle parfait du Panthéon
- Résultats par outil et modèle :
- Cursor 3.5 / Composer 2.5 : temps 5/5, qualité 1,4/5. Le plus rapide mais aussi le plus faible ; en dehors des grandes formes du dôme et du portique, il manquait de proportions justes, de contrôle des couleurs et de détails architecturaux
- Codex 5.5 High : temps 4/5, qualité 3,0/5. Très dense en détails, jusqu’à l’inscription de l’entablement, mais pénalisé parce que le STL final différait de l’aperçu PNG
- Claude Code 2.1 / Opus 4.7 : temps 2/5, qualité 3,0/5. Plus clair que Cursor dans la structure, le portique et le soubassement à degrés, mais avec une couleur trop uniforme et un résultat moins convaincant que les meilleurs
- Claude Code 2.1 / Sonnet 4.6 : temps 1/5, qualité 3,4/5. Le rendu d’ensemble le plus plausible et les proportions les mieux équilibrées parmi les exécutions autonomes existantes, mais aussi le temps d’implémentation le plus long
- Google Antigravity 2.0 / Gemini 3.5 Flash High : temps 1/5, qualité 4,5/5. A utilisé les dimensions et l’inscription réelles du Panthéon, et reste le seul agent autonome à avoir reproduit le motif de caissons du plafond intérieur
- ModelRift / Gemini Flash 3.0 : temps 1/5, qualité 3,8/5. Meilleur résultat non autonome grâce au workflow de commentaires itératifs de ModelRift, mais avec un temps environ deux fois plus long que Claude Code
Observations sur les workflows
- Le workflow côté client s’est révélé presque aussi important que le modèle lui-même
- Codex Desktop montrait directement dans la conversation les images chargées dans le contexte par le LLM, ce qui facilitait la vérification de leur utilisation dans un travail CAD visuel
- Cursor Agent et Claude Code CLI pouvaient aussi exploiter des images, mais le contexte visuel apparaissait moins explicitement pendant le traitement
- Tous les systèmes testés savaient piloter une toolchain OpenSCAD locale et appeler OpenSCAD depuis le
PATHde macOS pour générer des aperçus PNG - Le goulot d’étranglement n’était pas l’accès aux outils, mais le jugement géométrique, le réglage de la caméra et la capacité à exporter un aperçu propre en maillage final exploitable
- Codex exposait dans un même fil les images de référence, l’édition du fichier OpenSCAD et les aperçus générés, ce qui rendait le processus itératif plus facile à suivre
- Après la publication du benchmark, Codex a tenté de corriger des problèmes d’export sur le toit et l’entablement, mais la comparaison finale s’appuie sur le modèle soumis à l’origine
- Cursor offrait la boucle d’interaction la plus rapide ainsi qu’une interface parallèle utile pour la planification et le code OpenSCAD, mais la qualité de sortie restait inférieure à celle d’exécutions plus lentes
- Claude Code fonctionnait surtout dans le terminal pour lire les images et répéter des commandes OpenSCAD, mais la construction du modèle y était moins visuelle
Google Antigravity 2.0 / Gemini 3.5 Flash High
- Explore 3D result
- Cette exécution a été ajoutée le 22 mai 2026, juste après le lancement d’Antigravity 2.0 par Google à I/O 2026 et la présentation de Gemini 3.5 Flash le 19 mai 2026
- Le résultat a été le meilleur modèle totalement autonome du benchmark, avec des premiers signaux positifs pour Flash 3.5
- Antigravity 2.0 ressemblait davantage à une application desktop centrée sur les agents avec planification, exécution et aperçu ; les utilisateurs qui préféraient l’expérience IDE précédente n’avaient pas de voie de retour fluide, hors downgrade ou maintien sur l’ancienne app, ce qui a suscité beaucoup de critiques la semaine du lancement
- Flash 3.5 High ne s’est pas contenté d’estimer les images de référence à l’œil : il a recherché de vrais paramètres du Panthéon
- Le plan et le code utilisaient des dimensions explicites pour la rotonde, le dôme, le portique et l’oculus, puis les convertissaient en valeurs OpenSCAD paramétriques
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD. - Il a aussi proposé un mode coupe pour refléter la structure intérieure du Panthéon
To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`. - Le détail le plus marquant concernait le plafond
The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing. - Antigravity est le seul agent autonome à avoir implémenté le motif répétitif de caissons carrés visible à travers l’oculus
- Le résultat extérieur intégrait aussi des éléments souvent omis dans des sorties OpenSCAD rapides :
- matériau de colonnes mêlant gris et rouge
- inscription lisible
- anneaux de toit en gradins
- bonne relation d’ensemble entre la rotonde, le bloc central, le portique et le dôme
- Note qualité : 4,5/5 ; note vitesse : 1/5
- Ce n’était pas rapide, mais cela a relevé le plafond de la génération autonome dans ce benchmark et montre que Flash 3.5 paraît prometteur pour la génération de code spatial quand il est combiné à des outils de planification, rendu, inspection et correction
ModelRift / Gemini Flash 3.0
- Explore 3D result
- Ce résultat a été produit via un processus human-in-the-loop avec ModelRift et Gemini Flash 3.0 ; contrairement aux quatre premières exécutions, ce n’était pas un benchmark autonome en une seule passe
- Le workflow a duré environ 10 minutes, soit à peu près deux fois le temps de Claude Code, d’où la même note de vitesse de 1/5
- Ce benchmark a été exécuté le 21 mai 2026, juste après la publication de Gemini 3.5 Flash
- Le résultat Antigravity montre la force de 3.5 Flash, mais le choix du modèle par défaut dans ModelRift doit aussi tenir compte de la qualité, du coût et de la latence
- La tarification de l’API Gemini par Google affiche Gemini 3.5 Flash au tarif standard de 1,50 $ par million de tokens en entrée et 9,00 $ par million en sortie, contre 0,50 $ en entrée et 3,00 $ en sortie pour Gemini 3 Flash
- Gemini 3.5 Flash représente donc un coût multiplié par trois par rapport à la génération Flash précédente, et reste bien plus cher que les références de coût de l’époque Gemini 1.5 Flash
- La qualité a atteint 3,8/5, meilleure que les lots autonomes précédents
- Le modèle n’était pas parfait, mais le portique, la disposition des colonnes, le toit, les nervures du dôme et le volume global étaient plus cohérents
- La différence clé, c’est la possibilité d’ajouter directement des retours visuels sur le rendu en cours
- Le workflow ModelRift est conçu pour enchaîner génération du modèle, inspection dans le navigateur, ajout de notes visuelles sur le rendu, puis demande à l’IA de modifier l’OpenSCAD
- Pour le travail CAD spatial, cette boucle est bien plus précise qu’une instruction textuelle seule
Principaux résultats des exécutions autonomes
-
Codex 5.5 High
- Explore 3D result
- Codex 5.5 High a généré le modèle le plus dense
- Les éléments inclus étaient la rotonde, les nervures du dôme, l’oculus, les bandes de maçonnerie empilées, le portique avant, les colonnes, les détails du soubassement périphérique et le texte de l’entablement
- L’entablement contenait
M AGRIPPA L F COS TERTIVM FECIT - Dans OpenSCAD, le texte est difficile à modéliser : il faut le placer, l’extruder, l’orienter et lui conserver une faible épaisseur
- Pendant l’itération, l’aperçu rendu paraissait meilleur que le STL final exporté
- Dans le résultat final, une surface de type plafond problématique est apparue dans la zone de l’entablement et du toit du portique, ce qui a modifié l’impression de l’assemblage avant
- Codex a montré un fort raisonnement spatial et une grande ambition de détail, mais a aussi révélé le risque d’export : la fidélité de l’aperçu n’est pas équivalente à la fidélité du maillage final
- Si l’évaluation s’était faite sur le meilleur aperçu PNG plutôt que sur le STL publié, il aurait eu assez de structure et de détails pour se placer juste derrière Antigravity 2.0
- Le score de 3,0/5 reflète donc surtout la pénalité liée à l’écart entre export final et rendu, plus que l’intention de conception du modèle
-
Claude Sonnet
- Explore 3D result
- Claude Sonnet a produit le modèle le plus propre parmi les exécutions autonomes existantes
- Il n’a pas poussé le micro-détail autant que Codex, mais la silhouette était plus propre et les grandes composantes architecturales s’emboîtaient plus naturellement
- Le dôme, le tambour, le portique et les colonnes se lisaient comme un bâtiment unique plutôt qu’un simple assemblage de primitives adjacentes
- Les proportions étaient aussi plus maîtrisées, et avant l’exécution Antigravity, c’était le meilleur résultat entièrement autonome
- Claude Code était environ 2 à 3 fois plus lent que Codex dans ce benchmark, et Sonnet a donc obtenu la plus mauvaise note de temps malgré sa bonne qualité
- La note qualité est de 3,4/5, ce qui reste un modèle d’approximation plutôt qu’une restitution architecturale de niveau production
-
Cursor Composer
- Explore 3D result
- La combinaison Cursor et Composer 2.5 a été la plus rapide, mais aussi la plus faible en résultat
- Les grands gestes — rotonde, dôme, portique, colonnes — étaient bien présents
- En revanche, elle passait à côté de la sobriété des matériaux et des nuances architecturales qui rendent le Panthéon identifiable
- La sortie ressemblait davantage à un placeholder simplifié qu’à un modèle abouti, et aurait exigé beaucoup de reprise avant publication
-
Claude Opus
- Explore 3D result
- Claude Opus se situait entre Cursor et Sonnet
- Il a produit un bâtiment plus abouti que Cursor, avec un portique et un soubassement à degrés plus nets
- Mais le rendu restait trop uniforme et moins convaincant que Sonnet
- La structure était là, mais le jugement sur la hiérarchie visuelle manquait
- La couleur et le poids visuel étant presque identiques partout, les détails entraient en concurrence au lieu de guider le regard
- La note révisée de 3,0/5 indique qu’il méritait une meilleure évaluation que dans la première version du tableau, tout en restant derrière Sonnet et Antigravity
Enseignements clés
- OpenSCAD a bien tenu comme langage cible
- Sa syntaxe est réduite, sa sortie est déterministe et sa CLI produit des aperçus vérifiables dans une boucle itérative
- Les LLM n’avaient pas besoin d’outils supplémentaires pour l’utiliser
- L’usage des outils n’était pas le goulot d’étranglement
- Tous les agents savaient appeler OpenSCAD depuis le
PATHmacOS et générer des aperçus PNG - La difficulté portait sur le jugement géométrique, pas sur le pipeline
- Tous les agents savaient appeler OpenSCAD depuis le
- La vitesse ne prédisait pas la qualité
- Cursor a été le plus rapide, mais a produit le résultat le plus faible
- Sonnet a été le plus lent parmi les exécutions autonomes existantes, mais a produit le modèle le plus propre
- Antigravity était lui aussi lent, mais Gemini 3.5 Flash High a obtenu le meilleur résultat autonome après avoir eu le temps de planifier et d’itérer
- ModelRift/Gemini Flash 3.0 a pris plus de temps, mais les retours visuels lui ont permis d’atteindre une qualité supérieure aux lots autonomes précédents
- Aperçu et export ne sont pas la même chose
- Codex paraissait solide dans la boucle de rendu, mais le STL final présentait des problèmes géométriques autour du toit du portique
- Pour des modèles destinés à l’impression, il faut inspecter séparément le maillage exporté, pas seulement l’aperçu
- Aucun résultat n’atteignait encore le niveau d’un modèle architectural fidèle
- L’inscription de Codex était un bon détail
- Les proportions de Sonnet étaient cohérentes
- Le plafond à caissons d’Antigravity était le détail le plus impressionnant
- Le résultat ModelRift/Gemini Flash 3.0 montre à quel point la qualité progresse quand un humain ajuste visuellement le rendu
- Avec seulement deux images de référence et un prompt court, tous les systèmes ont atteint un OpenSCAD valide et rendu possible sans écrire manuellement le code CAD
- Les écarts de qualité entre outils étaient importants, mais le niveau de départ était déjà plus élevé que prévu
- La génération totalement autonome n’est pas encore le bon workflow pour ce type de tâche
- ModelRift continue d’utiliser un Annotation Mode pour le travail itératif
- Le principe consiste à dessiner directement des flèches et des notes sur des captures d’écran du modèle 3D, puis à les renvoyer à l’IA
- Pour la géométrie spatiale, une étape human-in-the-loop reste importante, même avec les meilleurs modèles
- Le modèle peut réussir les grands volumes tout en se trompant sur l’emplacement des colonnes ou les proportions du dôme
- Pointer directement les problèmes sur le rendu est plus rapide et plus précis que de les décrire en texte
1 commentaires
Commentaires sur Hacker News
La semaine dernière, j’ai acheté le vélo de ma femme sur Marketplace ; il était en bon état, mais il manquait un passe-câble en caoutchouc pour le routage interne
J’ai donné à Claude une photo du trou en forme de gélule, puis une autre photo avec un pied à coulisse numérique mesurant la longueur et la largeur, et avec un prompt très court il a généré un modèle OpenSCAD entièrement paramétré pour toutes les dimensions
Je l’ai imprimé en TPU sans aucune modification, et dès le premier essai c’était presque parfait ; en réduisant de 0,3 mm à 0,1 mm la marge que Claude avait retirée sur les dimensions x/y, c’était exactement ajusté. C’est une forme bien plus simple que l’architecture de la Rome antique, mais c’est quand même impressionnant que ça marche aussi facilement
J’ai eu une expérience similaire en créant de petites pièces fonctionnelles pour imprimante 3D avec OpenSCAD et des LLM, et je sais bien que les modèles ne sont pas aussi performants qu’en génération de code React ; je suis aussi l’opposé d’un utilisateur expert. Malgré tout, c’est génial que ça m’ait donné envie de commencer à apprendre une nouvelle compétence comme hobby
Le vrai moment magique, ce serait quand on pourrait lui donner une seule dimension ou une photo avec une règle, et que l’IA déduirait le reste ; pour l’instant, au moins Claude est encore assez faible sur ce point
Le fait que « Antigravity ait été le seul agent autonome à reproduire le motif emblématique du plafond intérieur du Panthéon, c’est-à-dire le plafond à caissons carrés répétitifs visible à travers l’oculus », c’est vraiment impressionnant
Même après avoir regardé le modèle 3D, ce n’est qu’en lisant cette phrase que j’ai pensé à regarder l’intérieur du bâtiment
Voici le modèle 3D avec
show_cutawayactivé : https://modelrift.com/models/pantheon-benchmark-antigravity-...Si on demande le « Panthéon », c’est évidemment le bon comportement, mais j’imagine qu’un dessinateur-projeteur ou un ingénieur aurait du mal à accepter un tel livrable
Je ne sais pas sur quel benchmark Antigravity est arrivé premier, mais chez moi Antigravity, qui a remplacé Gemini CLI de force, me demande une connexion via le navigateur à chaque utilisation, et l’IDE Antigravity ne se met même plus à jour
Si possible, j’aimerais qu’ils atteignent d’abord une qualité de déploiement basiquement acceptable avant de s’inquiéter d’être numéro un quelque part
Le vrai titre est « OpenSCAD LLM Benchmark: Building the Pantheon »
Cela dit, les modèles LLM eux-mêmes sont bons et Antigravity 2.0 n’est pas si mauvais. Mais c’est une autre histoire si, comme beaucoup, on a perdu sa configuration et ses projets Antigravity 1.0
Gemini 3.5 Flash est étrange. Son cutoff est ancien ; sur certains points il est meilleur que 3.1 Pro, sur d’autres moins bon, et parfois il est moins cher, parfois plus cher que 3.1 Pro
Antigravity donnait l’impression d’être abandonné et les gens spéculaient sur sa fin ; en pratique, c’est plus ou moins ce qui s’est produit quand tout le monde a été déplacé vers le nouvel Antigravity
On a l’impression que Google transforme directement son organigramme en produits, avec trop d’offres IA dont aucune ne semble best-in-class. Par exemple, l’intégration Gemini dans Google Docs est inférieure à Claude
Ce que j’espérais, c’était soit une « intelligence de niveau Opus au coût de Haiku », soit un modèle « de niveau Sonnet au prix de Gemini 3.0 ». Si l’un des deux était sorti, ce serait devenu un modèle principal et un concurrent sérieux de Claude/Codex, mais on n’a eu ni l’un ni l’autre
Je me demande ce qui n’est pas couvert par une combinaison Antigravity CLI + VS Code ou un autre IDE
Et l’e-mail de mercredi, du style « merci pour votre abonnement Google One AI Pro, mais à partir de maintenant on ajoute des restrictions à votre compte, on n’y peut rien », m’a vraiment agacé. Avant ça, je recommandais l’abonnement AI Pro pour son bon rapport qualité-prix
Je suis content que Google investisse, mais en vieillissant je tiens de plus en plus à préserver mon flux de travail
J’ai fait tourner beaucoup de benchmarks OpenSCAD sur toutes sortes de modèles et de configurations, et ce que j’en retiens, c’est ceci
Les modèles sont irréguliers : ils peuvent être excellents sur certains types de modèles 3D et pas du tout sur d’autres
D’après mon expérience, les modèles Gemini sont les moins irréguliers et les meilleurs en compréhension d’image
Les modèles Gemini sont aussi les plus créatifs, ce qui peut paradoxalement être moins souhaitable si on veut des pièces de CAO précises
Globalement, ce benchmark ne démontre pas grand-chose. Un seul modèle 3D et une seule tentative, ce n’est pas suffisant. En général, on teste au moins 12 modèles avec 3 générations chacun, mais en réalité il faudrait en faire bien plus. C’est simplement trop coûteux pour un développeur indépendant
Merci quand même de l’avoir publié, et je vais bientôt tester les performances de Flash 3.5
Évaluer les LLM sur leur capacité à générer des modèles 3D de CAO valides est un benchmark intéressant
OpenSCAD s’y prête particulièrement bien, puisqu’il repose entièrement sur du code
Quand on essaie soi-même, l’expérience est plutôt mauvaise. Le premier essai peut donner une ébauche à peu près correcte, mais dès qu’on commence à la « déboguer », on finit dans une session très frustrante à réaliser que le modèle ne peut pas vraiment « voir » son propre résultat
Autrement dit, il ne peut absolument pas faire d’amélioration itérative
La plupart des outils d’exécution ou des harnais semblent réduire la taille des images avant traitement, ce qui fait perdre tellement de détails — surtout sur les images filaires — que le raisonnement devient difficile
Je m’y prends peut-être mal, mais ce test ne vérifiait pas réellement cet aspect. C’était juste un essai ponctuel, et cette approche s’effondre assez vite, surtout quand on n’a pas de photo de référence de ce qu’on veut produire
Créer un seul objet du monde réel puis décréter que c’est un benchmark, ce n’est pas une manière robuste d’évaluer un outil
Il faudrait faire comme Iron Chef : donner un thème d’architecture grecque et laisser un jury désigner le gagnant. Là, on regarde surtout quel outil a produit le Panthéon subjectivement le plus plausible
On évalue un exemple unique et mal défini, avec des critères de notation totalement subjectifs et sans cas d’usage final
Il y a encore du chemin avant de shorter Autodesk
Pour référence, Autodesk a lancé en décembre un assistant agentique pour Fusion, et après 6 mois c’est toujours assez mauvais
Je l’ai essayé ces dernières semaines parce que je devais concevoir quelques pièces simples pour l’impression 3D ; chaque pièce demandait à peine quatre opérations dans la timeline, et pourtant même en décrivant très précisément les étapes avec la terminologie de Fusion, il n’arrivait pas à produire quelque chose d’approchant
À ce stade, je ne suis même pas sûr qu’il puisse correctement créer des solides de base simples
J’ai du mal à être convaincu. Le Panthéon est l’un des bâtiments historiques les plus emblématiques, il existe énormément d’ouvrages à son sujet, ainsi que beaucoup de photos et de modèles publics qui ont probablement servi à l’entraînement
Un benchmark où l’on modéliserait une structure anonyme uniquement à partir des références fournies serait plus intéressant. Là, ça donne l’impression d’une magie superficielle, comme quand on regarde un LLM produire d’un coup une appli de todo
Je construis un appareil tech pour la parentalité, et son boîtier a été entièrement généré par une IA
Je ne savais absolument pas par où commencer en modélisation 3D, et le LLM m’a appris que, là aussi, tout se résumait à du code
Étrangement, Opus 4.5 me l’a fait parfaitement du premier coup, c’était juste avant la polémique sur la baisse de qualité, et depuis, même retoucher très légèrement le boîtier est devenu extrêmement difficile
On a l’impression qu’Opus est passé d’un modèle capable de manipuler mentalement des formes complexes à un modèle qui ne comprend même plus vraiment ce qu’il traite
En revanche, 4.7 s’en est bien sorti pour les modifications