Antigravity 2.0 en tête du benchmark architectural 3D LLM OpenSCAD

(modelrift.com)

3 points par GN⁺ 2026-05-23 | 2 commentaires | Partager sur WhatsApp

Le benchmark OpenSCAD Pantheon évalue si des outils de code IA peuvent reproduire un monument en code CAD paramétrique à partir de seulement deux images de référence et d’un court prompt
Google Antigravity 2.0 / Gemini 3.5 Flash High a obtenu la meilleure note avec 4,5/5 en qualité, en reproduisant jusqu’aux dimensions réelles du Panthéon, à son inscription et au motif à caissons du plafond intérieur
Codex 5.5 High présentait une forte densité de détails, mais a été pénalisé à cause d’une discordance entre l’aperçu PNG et le STL final ; Sonnet a produit le modèle le plus propre parmi les exécutions autonomes existantes
Cursor a été le plus rapide, mais aussi le moins bon en qualité, tandis que ModelRift/Gemini Flash 3.0 a atteint 3,8/5 avec une approche human-in-the-loop enrichie de retours visuels
Tous les systèmes ont exécuté le rendu via l’interface en ligne de commande d’OpenSCAD, mais le goulot d’étranglement n’était pas l’accès aux outils : c’était le jugement géométrique et la validation du maillage final

Objectif du benchmark et nature de la tâche

ModelRift génère du code OpenSCAD pour tous ses modèles 3D ; la capacité d’un LLM à traiter la géométrie spatiale influence donc directement la qualité réelle du modèle
Ce test était un petit benchmark pratique dans lequel plusieurs outils de code IA recevaient la même tâche : implémenter le Panthéon en OpenSCAD à partir d’images de référence et d’un prompt court
L’objectif était de vérifier leur capacité à transformer une référence architecturale en code CAD paramétrique, à produire un aperçu PNG avec la CLI OpenSCAD, puis à itérer pour améliorer le résultat

Le prompt demandait d’inclure la rotonde, le dôme, le portique, les colonnes, le fronton et les détails de façade du Panthéon

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

Pourquoi avoir choisi le Panthéon et OpenSCAD

Le Panthéon constitue une tâche plus riche qu’un simple test de syntaxe difference(), cube() ou cylinder(), tout en évitant les géométries organiques ou de personnage qu’OpenSCAD gère mal
Sa structure principale — rotonde circulaire et dôme, oculus central, portique rectiligne, colonnes, soubassement à degrés et fronton triangulaire — facilite la comparaison entre résultats
Même un résultat faible peut ressembler à un bâtiment surmonté d’un dôme, mais un bon résultat doit mieux restituer la relation entre le tambour circulaire, le portique rectangulaire, les anneaux du dôme et la façade avant
OpenSCAD s’y prête bien parce que le modèle est du code en texte brut et que son vocabulaire est réduit, ce qui en fait une bonne cible pour la génération géométrique par LLM
Des consignes comme « répéter 28 colonnes autour d’un rayon » ou « soustraire l’oculus du dôme » peuvent être exprimées directement dans le code source
Le résultat est inspectable, reproductible et facile à corriger : une erreur d’espacement des colonnes se corrige en modifiant un paramètre ou une boucle, pas un état de scène caché
Le choix d’OpenSCAD comme base de ModelRift est détaillé dans Why we built ModelRift on OpenSCAD
Son inconvénient est qu’OpenSCAD n’est pas un outil de sculpture ; il est surtout adapté aux objets compositionnels, paramétriques et hard-surface

Résultats globaux

Les notes sont des évaluations relatives à l’intérieur de ce benchmark, pas un classement général des modèles
Le score de temps reflète le temps d’implémentation observé, et non l’heure de publication du projet
Les scores de qualité ont été attribués de façon prudente ; même le meilleur résultat reste loin d’un modèle parfait du Panthéon
Résultats par outil et modèle :
- Cursor 3.5 / Composer 2.5 : temps 5/5, qualité 1,4/5. Le plus rapide mais aussi le plus faible ; en dehors des grandes formes du dôme et du portique, il manquait de proportions justes, de contrôle des couleurs et de détails architecturaux
- Codex 5.5 High : temps 4/5, qualité 3,0/5. Très dense en détails, jusqu’à l’inscription de l’entablement, mais pénalisé parce que le STL final différait de l’aperçu PNG
- Claude Code 2.1 / Opus 4.7 : temps 2/5, qualité 3,0/5. Plus clair que Cursor dans la structure, le portique et le soubassement à degrés, mais avec une couleur trop uniforme et un résultat moins convaincant que les meilleurs
- Claude Code 2.1 / Sonnet 4.6 : temps 1/5, qualité 3,4/5. Le rendu d’ensemble le plus plausible et les proportions les mieux équilibrées parmi les exécutions autonomes existantes, mais aussi le temps d’implémentation le plus long
- Google Antigravity 2.0 / Gemini 3.5 Flash High : temps 1/5, qualité 4,5/5. A utilisé les dimensions et l’inscription réelles du Panthéon, et reste le seul agent autonome à avoir reproduit le motif de caissons du plafond intérieur
- ModelRift / Gemini Flash 3.0 : temps 1/5, qualité 3,8/5. Meilleur résultat non autonome grâce au workflow de commentaires itératifs de ModelRift, mais avec un temps environ deux fois plus long que Claude Code

Observations sur les workflows

Le workflow côté client s’est révélé presque aussi important que le modèle lui-même
Codex Desktop montrait directement dans la conversation les images chargées dans le contexte par le LLM, ce qui facilitait la vérification de leur utilisation dans un travail CAD visuel
Cursor Agent et Claude Code CLI pouvaient aussi exploiter des images, mais le contexte visuel apparaissait moins explicitement pendant le traitement
Tous les systèmes testés savaient piloter une toolchain OpenSCAD locale et appeler OpenSCAD depuis le PATH de macOS pour générer des aperçus PNG
Le goulot d’étranglement n’était pas l’accès aux outils, mais le jugement géométrique, le réglage de la caméra et la capacité à exporter un aperçu propre en maillage final exploitable
Codex exposait dans un même fil les images de référence, l’édition du fichier OpenSCAD et les aperçus générés, ce qui rendait le processus itératif plus facile à suivre
Après la publication du benchmark, Codex a tenté de corriger des problèmes d’export sur le toit et l’entablement, mais la comparaison finale s’appuie sur le modèle soumis à l’origine
Cursor offrait la boucle d’interaction la plus rapide ainsi qu’une interface parallèle utile pour la planification et le code OpenSCAD, mais la qualité de sortie restait inférieure à celle d’exécutions plus lentes
Claude Code fonctionnait surtout dans le terminal pour lire les images et répéter des commandes OpenSCAD, mais la construction du modèle y était moins visuelle

Google Antigravity 2.0 / Gemini 3.5 Flash High

Explore 3D result
Cette exécution a été ajoutée le 22 mai 2026, juste après le lancement d’Antigravity 2.0 par Google à I/O 2026 et la présentation de Gemini 3.5 Flash le 19 mai 2026
Le résultat a été le meilleur modèle totalement autonome du benchmark, avec des premiers signaux positifs pour Flash 3.5
Antigravity 2.0 ressemblait davantage à une application desktop centrée sur les agents avec planification, exécution et aperçu ; les utilisateurs qui préféraient l’expérience IDE précédente n’avaient pas de voie de retour fluide, hors downgrade ou maintien sur l’ancienne app, ce qui a suscité beaucoup de critiques la semaine du lancement
Flash 3.5 High ne s’est pas contenté d’estimer les images de référence à l’œil : il a recherché de vrais paramètres du Panthéon
Le plan et le code utilisaient des dimensions explicites pour la rotonde, le dôme, le portique et l’oculus, puis les convertissaient en valeurs OpenSCAD paramétriques
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Il a aussi proposé un mode coupe pour refléter la structure intérieure du Panthéon

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

Le détail le plus marquant concernait le plafond

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravity est le seul agent autonome à avoir implémenté le motif répétitif de caissons carrés visible à travers l’oculus
Le résultat extérieur intégrait aussi des éléments souvent omis dans des sorties OpenSCAD rapides :
- matériau de colonnes mêlant gris et rouge
- inscription lisible
- anneaux de toit en gradins
- bonne relation d’ensemble entre la rotonde, le bloc central, le portique et le dôme
Note qualité : 4,5/5 ; note vitesse : 1/5
Ce n’était pas rapide, mais cela a relevé le plafond de la génération autonome dans ce benchmark et montre que Flash 3.5 paraît prometteur pour la génération de code spatial quand il est combiné à des outils de planification, rendu, inspection et correction

ModelRift / Gemini Flash 3.0

Explore 3D result
Ce résultat a été produit via un processus human-in-the-loop avec ModelRift et Gemini Flash 3.0 ; contrairement aux quatre premières exécutions, ce n’était pas un benchmark autonome en une seule passe
Le workflow a duré environ 10 minutes, soit à peu près deux fois le temps de Claude Code, d’où la même note de vitesse de 1/5
Ce benchmark a été exécuté le 21 mai 2026, juste après la publication de Gemini 3.5 Flash
Le résultat Antigravity montre la force de 3.5 Flash, mais le choix du modèle par défaut dans ModelRift doit aussi tenir compte de la qualité, du coût et de la latence
La tarification de l’API Gemini par Google affiche Gemini 3.5 Flash au tarif standard de 1,50 $ par million de tokens en entrée et 9,00 $ par million en sortie, contre 0,50 $ en entrée et 3,00 $ en sortie pour Gemini 3 Flash
Gemini 3.5 Flash représente donc un coût multiplié par trois par rapport à la génération Flash précédente, et reste bien plus cher que les références de coût de l’époque Gemini 1.5 Flash
La qualité a atteint 3,8/5, meilleure que les lots autonomes précédents
Le modèle n’était pas parfait, mais le portique, la disposition des colonnes, le toit, les nervures du dôme et le volume global étaient plus cohérents
La différence clé, c’est la possibilité d’ajouter directement des retours visuels sur le rendu en cours
Le workflow ModelRift est conçu pour enchaîner génération du modèle, inspection dans le navigateur, ajout de notes visuelles sur le rendu, puis demande à l’IA de modifier l’OpenSCAD
Pour le travail CAD spatial, cette boucle est bien plus précise qu’une instruction textuelle seule

Principaux résultats des exécutions autonomes

Codex 5.5 High
- Explore 3D result
- Codex 5.5 High a généré le modèle le plus dense
- Les éléments inclus étaient la rotonde, les nervures du dôme, l’oculus, les bandes de maçonnerie empilées, le portique avant, les colonnes, les détails du soubassement périphérique et le texte de l’entablement
- L’entablement contenait M AGRIPPA L F COS TERTIVM FECIT
- Dans OpenSCAD, le texte est difficile à modéliser : il faut le placer, l’extruder, l’orienter et lui conserver une faible épaisseur
- Pendant l’itération, l’aperçu rendu paraissait meilleur que le STL final exporté
- Dans le résultat final, une surface de type plafond problématique est apparue dans la zone de l’entablement et du toit du portique, ce qui a modifié l’impression de l’assemblage avant
- Codex a montré un fort raisonnement spatial et une grande ambition de détail, mais a aussi révélé le risque d’export : la fidélité de l’aperçu n’est pas équivalente à la fidélité du maillage final
- Si l’évaluation s’était faite sur le meilleur aperçu PNG plutôt que sur le STL publié, il aurait eu assez de structure et de détails pour se placer juste derrière Antigravity 2.0
- Le score de 3,0/5 reflète donc surtout la pénalité liée à l’écart entre export final et rendu, plus que l’intention de conception du modèle
Claude Sonnet
- Explore 3D result
- Claude Sonnet a produit le modèle le plus propre parmi les exécutions autonomes existantes
- Il n’a pas poussé le micro-détail autant que Codex, mais la silhouette était plus propre et les grandes composantes architecturales s’emboîtaient plus naturellement
- Le dôme, le tambour, le portique et les colonnes se lisaient comme un bâtiment unique plutôt qu’un simple assemblage de primitives adjacentes
- Les proportions étaient aussi plus maîtrisées, et avant l’exécution Antigravity, c’était le meilleur résultat entièrement autonome
- Claude Code était environ 2 à 3 fois plus lent que Codex dans ce benchmark, et Sonnet a donc obtenu la plus mauvaise note de temps malgré sa bonne qualité
- La note qualité est de 3,4/5, ce qui reste un modèle d’approximation plutôt qu’une restitution architecturale de niveau production
Cursor Composer
- Explore 3D result
- La combinaison Cursor et Composer 2.5 a été la plus rapide, mais aussi la plus faible en résultat
- Les grands gestes — rotonde, dôme, portique, colonnes — étaient bien présents
- En revanche, elle passait à côté de la sobriété des matériaux et des nuances architecturales qui rendent le Panthéon identifiable
- La sortie ressemblait davantage à un placeholder simplifié qu’à un modèle abouti, et aurait exigé beaucoup de reprise avant publication
Claude Opus
- Explore 3D result
- Claude Opus se situait entre Cursor et Sonnet
- Il a produit un bâtiment plus abouti que Cursor, avec un portique et un soubassement à degrés plus nets
- Mais le rendu restait trop uniforme et moins convaincant que Sonnet
- La structure était là, mais le jugement sur la hiérarchie visuelle manquait
- La couleur et le poids visuel étant presque identiques partout, les détails entraient en concurrence au lieu de guider le regard
- La note révisée de 3,0/5 indique qu’il méritait une meilleure évaluation que dans la première version du tableau, tout en restant derrière Sonnet et Antigravity

Enseignements clés

OpenSCAD a bien tenu comme langage cible
- Sa syntaxe est réduite, sa sortie est déterministe et sa CLI produit des aperçus vérifiables dans une boucle itérative
- Les LLM n’avaient pas besoin d’outils supplémentaires pour l’utiliser
L’usage des outils n’était pas le goulot d’étranglement
- Tous les agents savaient appeler OpenSCAD depuis le PATH macOS et générer des aperçus PNG
- La difficulté portait sur le jugement géométrique, pas sur le pipeline
La vitesse ne prédisait pas la qualité
- Cursor a été le plus rapide, mais a produit le résultat le plus faible
- Sonnet a été le plus lent parmi les exécutions autonomes existantes, mais a produit le modèle le plus propre
- Antigravity était lui aussi lent, mais Gemini 3.5 Flash High a obtenu le meilleur résultat autonome après avoir eu le temps de planifier et d’itérer
- ModelRift/Gemini Flash 3.0 a pris plus de temps, mais les retours visuels lui ont permis d’atteindre une qualité supérieure aux lots autonomes précédents
Aperçu et export ne sont pas la même chose
- Codex paraissait solide dans la boucle de rendu, mais le STL final présentait des problèmes géométriques autour du toit du portique
- Pour des modèles destinés à l’impression, il faut inspecter séparément le maillage exporté, pas seulement l’aperçu
Aucun résultat n’atteignait encore le niveau d’un modèle architectural fidèle
- L’inscription de Codex était un bon détail
- Les proportions de Sonnet étaient cohérentes
- Le plafond à caissons d’Antigravity était le détail le plus impressionnant
- Le résultat ModelRift/Gemini Flash 3.0 montre à quel point la qualité progresse quand un humain ajuste visuellement le rendu
Avec seulement deux images de référence et un prompt court, tous les systèmes ont atteint un OpenSCAD valide et rendu possible sans écrire manuellement le code CAD
Les écarts de qualité entre outils étaient importants, mais le niveau de départ était déjà plus élevé que prévu
La génération totalement autonome n’est pas encore le bon workflow pour ce type de tâche
- ModelRift continue d’utiliser un Annotation Mode pour le travail itératif
- Le principe consiste à dessiner directement des flèches et des notes sur des captures d’écran du modèle 3D, puis à les renvoyer à l’IA
- Pour la géométrie spatiale, une étape human-in-the-loop reste importante, même avec les meilleurs modèles
- Le modèle peut réussir les grands volumes tout en se trompant sur l’emplacement des colonnes ou les proportions du dôme
- Pointer directement les problèmes sur le rendu est plus rapide et plus précis que de les décrire en texte

2 commentaires

xguru 2026-05-24

L’un de mes projets personnels utilise Codex, et avec GPT 5.4, j’avais l’impression qu’il avait tendance à un peu tâtonner avec OpenSCAD, donc j’attendais que le modèle s’améliore, mais je vais devoir réessayer.

GN⁺ 2026-05-23

Commentaires sur Hacker News

La semaine dernière, j’ai acheté le vélo de ma femme sur Marketplace ; il était en bon état, mais il manquait un passe-câble en caoutchouc pour le routage interne
J’ai donné à Claude une photo du trou en forme de gélule, puis une autre photo avec un pied à coulisse numérique mesurant la longueur et la largeur, et avec un prompt très court il a généré un modèle OpenSCAD entièrement paramétré pour toutes les dimensions
Je l’ai imprimé en TPU sans aucune modification, et dès le premier essai c’était presque parfait ; en réduisant de 0,3 mm à 0,1 mm la marge que Claude avait retirée sur les dimensions x/y, c’était exactement ajusté. C’est une forme bien plus simple que l’architecture de la Rome antique, mais c’est quand même impressionnant que ça marche aussi facilement
- La CAO était pour moi un exemple typique de technologie à forte barrière d’entrée que je n’abordais pas, et j’ai maintenant l’impression de pouvoir au moins bricoler des tâches simples, même imparfaitement
  J’ai eu une expérience similaire en créant de petites pièces fonctionnelles pour imprimante 3D avec OpenSCAD et des LLM, et je sais bien que les modèles ne sont pas aussi performants qu’en génération de code React ; je suis aussi l’opposé d’un utilisateur expert. Malgré tout, c’est génial que ça m’ait donné envie de commencer à apprendre une nouvelle compétence comme hobby
- Claude s’en sort bien si on lui donne toutes les dimensions, mais il n’est pas très bon pour deviner
  Le vrai moment magique, ce serait quand on pourrait lui donner une seule dimension ou une photo avec une règle, et que l’IA déduirait le reste ; pour l’instant, au moins Claude est encore assez faible sur ce point
- J’ai récemment essayé de faire générer des fortune cookies 3D par des modèles ; Claude a tenté en three.js, Gemini en OpenSCAD, mais aucun des deux n’a vraiment compris le concept ni ne s’en est approché. C’est apparemment une forme plus complexe qu’elle n’en a l’air
- C’est précisément sur ce genre de petites impressions fonctionnelles qu’OpenSCAD et la génération par LLM brillent
- Est-ce qu’il optimise aussi le modèle pour éviter d’avoir besoin de supports ?
Le fait que « Antigravity ait été le seul agent autonome à reproduire le motif emblématique du plafond intérieur du Panthéon, c’est-à-dire le plafond à caissons carrés répétitifs visible à travers l’oculus », c’est vraiment impressionnant
Même après avoir regardé le modèle 3D, ce n’est qu’en lisant cette phrase que j’ai pensé à regarder l’intérieur du bâtiment
Voici le modèle 3D avec show_cutaway activé : https://modelrift.com/models/pantheon-benchmark-antigravity-...
- J’ai du mal à dire s’il est bon ou mauvais d’avoir utilisé des informations externes qui n’étaient pas explicitement dans le prompt pour construire le modèle
  Si on demande le « Panthéon », c’est évidemment le bon comportement, mais j’imagine qu’un dessinateur-projeteur ou un ingénieur aurait du mal à accepter un tel livrable
- J’ai regardé l’intérieur par hasard, et j’ai eu l’impression d’y voir encore plus d’intelligence et d’effort que sur l’extérieur
Je ne sais pas sur quel benchmark Antigravity est arrivé premier, mais chez moi Antigravity, qui a remplacé Gemini CLI de force, me demande une connexion via le navigateur à chaque utilisation, et l’IDE Antigravity ne se met même plus à jour
Si possible, j’aimerais qu’ils atteignent d’abord une qualité de déploiement basiquement acceptable avant de s’inquiéter d’être numéro un quelque part
Le vrai titre est « OpenSCAD LLM Benchmark: Building the Pantheon »
- D’accord. Ce qui m’inquiète le plus avec les produits Google AI, c’est la souffrance sans fin côté expérience utilisateur autour de la connexion, de la facturation, des upgrades et de l’arrêt des produits
  Cela dit, les modèles LLM eux-mêmes sont bons et Antigravity 2.0 n’est pas si mauvais. Mais c’est une autre histoire si, comme beaucoup, on a perdu sa configuration et ses projets Antigravity 1.0
- Après avoir regardé Google I/O, j’ai au contraire moins confiance dans la capacité d’exécution de Google
  Gemini 3.5 Flash est étrange. Son cutoff est ancien ; sur certains points il est meilleur que 3.1 Pro, sur d’autres moins bon, et parfois il est moins cher, parfois plus cher que 3.1 Pro
  Antigravity donnait l’impression d’être abandonné et les gens spéculaient sur sa fin ; en pratique, c’est plus ou moins ce qui s’est produit quand tout le monde a été déplacé vers le nouvel Antigravity
  On a l’impression que Google transforme directement son organigramme en produits, avec trop d’offres IA dont aucune ne semble best-in-class. Par exemple, l’intégration Gemini dans Google Docs est inférieure à Claude
  Ce que j’espérais, c’était soit une « intelligence de niveau Opus au coût de Haiku », soit un modèle « de niveau Sonnet au prix de Gemini 3.0 ». Si l’un des deux était sorti, ce serait devenu un modèle principal et un concurrent sérieux de Claude/Codex, mais on n’a eu ni l’un ni l’autre
- J’utilise Claude Code et IntelliJ, donc je ne comprends pas trop pourquoi autant de gens se plaignent qu’Antigravity ait abandonné VS Code
  Je me demande ce qui n’est pas couvert par une combinaison Antigravity CLI + VS Code ou un autre IDE
- Le fait d’avoir été forcé à upgrader depuis Gemini CLI, que j’aimais bien et que je trouvais meilleur que Claude Code sur certains points, a aussi été pénible
  Et l’e-mail de mercredi, du style « merci pour votre abonnement Google One AI Pro, mais à partir de maintenant on ajoute des restrictions à votre compte, on n’y peut rien », m’a vraiment agacé. Avant ça, je recommandais l’abonnement AI Pro pour son bon rapport qualité-prix
- Le fait que ça casse le flux de travail est la principale raison pour laquelle je n’ai pas adopté Antigravity, même si je l’aimais bien
  Je suis content que Google investisse, mais en vieillissant je tiens de plus en plus à préserver mon flux de travail
J’ai fait tourner beaucoup de benchmarks OpenSCAD sur toutes sortes de modèles et de configurations, et ce que j’en retiens, c’est ceci
Les modèles sont irréguliers : ils peuvent être excellents sur certains types de modèles 3D et pas du tout sur d’autres
D’après mon expérience, les modèles Gemini sont les moins irréguliers et les meilleurs en compréhension d’image
Les modèles Gemini sont aussi les plus créatifs, ce qui peut paradoxalement être moins souhaitable si on veut des pièces de CAO précises
Globalement, ce benchmark ne démontre pas grand-chose. Un seul modèle 3D et une seule tentative, ce n’est pas suffisant. En général, on teste au moins 12 modèles avec 3 générations chacun, mais en réalité il faudrait en faire bien plus. C’est simplement trop coûteux pour un développeur indépendant
Merci quand même de l’avoir publié, et je vais bientôt tester les performances de Flash 3.5
- Je trouve qu’OpenSCAD est inutile parce qu’il ne gère pas les courbes. Je ne comprends pas pourquoi il continue à attirer autant d’attention
Évaluer les LLM sur leur capacité à générer des modèles 3D de CAO valides est un benchmark intéressant
OpenSCAD s’y prête particulièrement bien, puisqu’il repose entièrement sur du code
Quand on essaie soi-même, l’expérience est plutôt mauvaise. Le premier essai peut donner une ébauche à peu près correcte, mais dès qu’on commence à la « déboguer », on finit dans une session très frustrante à réaliser que le modèle ne peut pas vraiment « voir » son propre résultat
Autrement dit, il ne peut absolument pas faire d’amélioration itérative
La plupart des outils d’exécution ou des harnais semblent réduire la taille des images avant traitement, ce qui fait perdre tellement de détails — surtout sur les images filaires — que le raisonnement devient difficile
Je m’y prends peut-être mal, mais ce test ne vérifiait pas réellement cet aspect. C’était juste un essai ponctuel, et cette approche s’effondre assez vite, surtout quand on n’a pas de photo de référence de ce qu’on veut produire
Créer un seul objet du monde réel puis décréter que c’est un benchmark, ce n’est pas une manière robuste d’évaluer un outil
Il faudrait faire comme Iron Chef : donner un thème d’architecture grecque et laisser un jury désigner le gagnant. Là, on regarde surtout quel outil a produit le Panthéon subjectivement le plus plausible
- Ça ressemble moins à un benchmark qu’à un simple « moi, j’aime bien ça ! »
  On évalue un exemple unique et mal défini, avec des critères de notation totalement subjectifs et sans cas d’usage final
Il y a encore du chemin avant de shorter Autodesk
Pour référence, Autodesk a lancé en décembre un assistant agentique pour Fusion, et après 6 mois c’est toujours assez mauvais
- C’est presque ridiculement mauvais
  Je l’ai essayé ces dernières semaines parce que je devais concevoir quelques pièces simples pour l’impression 3D ; chaque pièce demandait à peine quatre opérations dans la timeline, et pourtant même en décrivant très précisément les étapes avec la terminologie de Fusion, il n’arrivait pas à produire quelque chose d’approchant
  À ce stade, je ne suis même pas sûr qu’il puisse correctement créer des solides de base simples
- Tu as essayé Fusion MCP, sorti le mois dernier ? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- Il y a encore du chemin, mais je pense qu’on y arrivera au final
J’ai du mal à être convaincu. Le Panthéon est l’un des bâtiments historiques les plus emblématiques, il existe énormément d’ouvrages à son sujet, ainsi que beaucoup de photos et de modèles publics qui ont probablement servi à l’entraînement
Un benchmark où l’on modéliserait une structure anonyme uniquement à partir des références fournies serait plus intéressant. Là, ça donne l’impression d’une magie superficielle, comme quand on regarde un LLM produire d’un coup une appli de todo
Je construis un appareil tech pour la parentalité, et son boîtier a été entièrement généré par une IA
Je ne savais absolument pas par où commencer en modélisation 3D, et le LLM m’a appris que, là aussi, tout se résumait à du code
Étrangement, Opus 4.5 me l’a fait parfaitement du premier coup, c’était juste avant la polémique sur la baisse de qualité, et depuis, même retoucher très légèrement le boîtier est devenu extrêmement difficile
On a l’impression qu’Opus est passé d’un modèle capable de manipuler mentalement des formes complexes à un modèle qui ne comprend même plus vraiment ce qu’il traite
- J’ai eu quelque chose de similaire avec mon propre boîtier : https://quill.lorehex.co/feather
  En revanche, 4.7 s’en est bien sorti pour les modifications