- Projet expérimental testant plusieurs modèles d’IA de génération d’images avec le même prompt afin d’évaluer leur précision, créativité et cohérence
- Un total de 14 modèles ont participé, dont OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev et Midjourney v7
- Tous les modèles ont généré des images sans inpainting ni fonctions d’édition, uniquement à partir de la description fournie
- Chaque test repose sur un seuil minimal de réussite clairement défini, et le taux de succès est calculé selon le respect des éléments visuels demandés
- Les résultats mettent en évidence des écarts de performance entre les modèles et montrent que la compréhension de concepts complexes ou la génération de structures mathématiques restent difficiles
Aperçu de l’expérience
- Il s’agit d’une expérience comparative de benchmark évaluant la capacité de génération pure de chaque modèle sur la base de règles strictes
- Les fonctions comme l’inpainting, le remix ou les consignes de retouche ultérieures sont toutes interdites
- Chaque modèle n’est autorisé qu’à quelques dizaines d’essais par prompt
- Les critères d’évaluation portent avant tout sur le respect précis des conditions visuelles
Principaux résultats des tests
- The Prussian Ring Toss
- Une scène où des soldats prussiens se lancent des anneaux sur leurs casques à pointe
- 5 modèles sur 6 satisfont aux conditions, soit le meilleur taux de réussite
- Nine-Pointed Star
- Une tâche consistant à générer correctement une étoile à 9 pointes
- La majorité des modèles ont échoué en convergeant vers des formes paires, seuls 3 ont réussi
- Spheron
- Une peinture à l’huile représentant Alexandre le Grand combattant en chevauchant un jouet « Hippity Hop »
- Testant la capacité à combiner contexte historique et objet moderne, seulement 4 modèles ont réussi
- Cubed⁵
- Une scène avec 5 cubes de verre transparents empilés verticalement dans l’ordre rouge–bleu–vert–violet–jaune
- 5 modèles l’ont reproduite correctement, avec un fort impact du ratio vertical sur la qualité du résultat
- Cephalopodic Puppet Show
- Une scène où chacune des 8 tentacules d’une pieuvre porte une marionnette-chaussette
- Test nécessitant une compréhension conceptuelle, seules la moitié des tentatives satisfont aux conditions
Exemples de tests supplémentaires
- Quantum Entangled Einstein : représentation d’Einstein et d’une ampoule liée à des idées sur la mécanique quantique → 3/6 réussites
- The Yarrctic Circle : image d’un pirate arctique portant une prothèse de jambe en glace → 6/6 réussites pour tous
- The Labyrinth : génération d’un labyrinthe 2D avec entrée, sortie et chemin clairement définis → 1/6 réussite
- A Dicey Situation : implémenter sur un dé à 20 faces (D20) des faces gravées uniquement avec des nombres premiers → 0/6, échec total
Analyse et implications
- Les erreurs sont plus fréquentes sur les structures logiques et les descriptions régies par des règles que sur le simple style visuel
- Le taux d’échec est particulièrement élevé pour les prompts imposant des conditions précises comme du texte, des nombres, des structures symétriques ou un ordre de couleurs
- À l’inverse, les prompts narratifs faisant appel à l’émotion ou à l’imagination montrent une cohérence relativement meilleure
- Globalement, les modèles GenAI révèlent encore des limites dans la compréhension de concepts composites et la restitution structurelle
Résumé
- Cette expérience constitue une tentative intéressante pour évaluer la « vraie capacité de compréhension » des modèles texte-vers-image
- Même des modèles récents comme Midjourney et OpenAI 4o échouent complètement sur certaines scènes logiques
- Les résultats montrent que « comprendre un texte » et « en visualiser précisément le sens » sont deux problèmes différents
- Le principal enjeu pour les progrès futurs des modèles semble être l’amélioration de l’alignement entre contexte linguistique et structure visuelle
1 commentaires
Avis Hacker News
Même des choses légales sont bloquées comme « non autorisées », ce qui donne l’impression d’une censure façon 1964 imposée par une entreprise
Avec GPT-5, c’est encore plus insupportable : chaque conversation commence par des formules de flatterie du genre « Excellente question » ou « Très bonne remarque »
Quand on entraîne le modèle avec des données de préférences utilisateur via le RLHF, cela a pour effet secondaire de rendre le modèle obséquieux
Tous les grands LLM sont dans cet état actuellement, mais je trouve quand même ça préférable à GPT-4o
ChatGPT est un produit destiné aux entreprises, donc s’il pouvait générer des images violentes ou suggestives, les grandes entreprises ne l’achèteraient jamais
Pour avoir travaillé comme acheteur logiciel pour des entreprises du Fortune 500, j’en suis certain à 100 %
Sans date, on a l’impression au premier regard qu’elles ont été créées en même temps
J’espère que leurs deux côtés d’oreiller seront toujours chauds
En réalité, c’est une fonction qui génère une nouvelle image, mais le terme semble utilisé dans le sens de modification d’une image existante
Des modèles multimodaux comme Qwen3-VL-30B-A3B modifient très bien les images existantes. imagegpt.com était pas mal aussi, mais je ne sais pas quel modèle il utilise
À noter que Qwen3-VL n’est pas un modèle de génération ou d’édition d’images, mais un modèle de raisonnement sur l’image
Il utilisait probablement Qwen-Image-Edit en backend
Par exemple, si on donne le prompt « ajouter des cheveux à un homme chauve », on obtient une version modifiée de l’image d’origine
Techniquement, c’est un processus de génération d’une nouvelle image, mais je le vois comme l’équivalent d’un Save As dans Photoshop
GPT-4o a une température faible, donc plus de cohérence mais moins de créativité, tandis que Midjourney, avec une température plus élevée, produit des arrière-plans et textures plus riches
Le ton sépia de 4o est peut-être du post-traitement
En pratique, il y a sans doute un workflow en plusieurs étapes pour affiner l’image finale
En revanche, les modèles basés sur des LLM utilisent souvent la réécriture de prompt (prompt rewriting)
Le cas de DALL·E 3 est bien expliqué dans cet article
J’attends les retours des inscrits
Lien Generative AI Review
En revanche, je ne comprends pas bien le fonctionnement exact où plusieurs essais sont faits puis évalués par un autre LLM. J’ai l’impression que cela limite forcément la précision
C’est un système PASS/FAIL : si le modèle n’arrive pas une seule fois à générer une image correspondant au prompt, c’est considéré comme un échec
L’idée est celle d’un test de Pictionary : « si on montre l’image à n’importe qui dans la rue, pourra-t-il deviner le prompt ? »
L’évaluation finale est décidée manuellement selon des critères clairs
On ne peut pas enfermer des évaluateurs humains dans une boîte pour leur faire juger 7600 résultats
Bien sûr, l’évaluation par LLM n’est pas parfaite, mais en matière de comparabilité et de cohérence, elle vaut mieux que l’humain
Et tant qu’on ne l’utilise pas comme objectif d’optimisation mais seulement comme thermomètre de performance, ce n’est pas un gros problème
En revanche, si on en fait la cible à optimiser, on peut obtenir des résultats bizarres comme avec GPT-5