Showdown d’images GenAI

(genai-showdown.specr.net)

1 points par GN⁺ 2025-10-28 | 1 commentaires | Partager sur WhatsApp

Projet expérimental testant plusieurs modèles d’IA de génération d’images avec le même prompt afin d’évaluer leur précision, créativité et cohérence
Un total de 14 modèles ont participé, dont OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev et Midjourney v7
Tous les modèles ont généré des images sans inpainting ni fonctions d’édition, uniquement à partir de la description fournie
Chaque test repose sur un seuil minimal de réussite clairement défini, et le taux de succès est calculé selon le respect des éléments visuels demandés
Les résultats mettent en évidence des écarts de performance entre les modèles et montrent que la compréhension de concepts complexes ou la génération de structures mathématiques restent difficiles

Aperçu de l’expérience

Il s’agit d’une expérience comparative de benchmark évaluant la capacité de génération pure de chaque modèle sur la base de règles strictes
- Les fonctions comme l’inpainting, le remix ou les consignes de retouche ultérieures sont toutes interdites
- Chaque modèle n’est autorisé qu’à quelques dizaines d’essais par prompt
Les critères d’évaluation portent avant tout sur le respect précis des conditions visuelles

Principaux résultats des tests

The Prussian Ring Toss
- Une scène où des soldats prussiens se lancent des anneaux sur leurs casques à pointe
- 5 modèles sur 6 satisfont aux conditions, soit le meilleur taux de réussite
Nine-Pointed Star
- Une tâche consistant à générer correctement une étoile à 9 pointes
- La majorité des modèles ont échoué en convergeant vers des formes paires, seuls 3 ont réussi
Spheron
- Une peinture à l’huile représentant Alexandre le Grand combattant en chevauchant un jouet « Hippity Hop »
- Testant la capacité à combiner contexte historique et objet moderne, seulement 4 modèles ont réussi
Cubed⁵
- Une scène avec 5 cubes de verre transparents empilés verticalement dans l’ordre rouge–bleu–vert–violet–jaune
- 5 modèles l’ont reproduite correctement, avec un fort impact du ratio vertical sur la qualité du résultat
Cephalopodic Puppet Show
- Une scène où chacune des 8 tentacules d’une pieuvre porte une marionnette-chaussette
- Test nécessitant une compréhension conceptuelle, seules la moitié des tentatives satisfont aux conditions

Exemples de tests supplémentaires

Quantum Entangled Einstein : représentation d’Einstein et d’une ampoule liée à des idées sur la mécanique quantique → 3/6 réussites
The Yarrctic Circle : image d’un pirate arctique portant une prothèse de jambe en glace → 6/6 réussites pour tous
The Labyrinth : génération d’un labyrinthe 2D avec entrée, sortie et chemin clairement définis → 1/6 réussite
A Dicey Situation : implémenter sur un dé à 20 faces (D20) des faces gravées uniquement avec des nombres premiers → 0/6, échec total

Analyse et implications

Les erreurs sont plus fréquentes sur les structures logiques et les descriptions régies par des règles que sur le simple style visuel
Le taux d’échec est particulièrement élevé pour les prompts imposant des conditions précises comme du texte, des nombres, des structures symétriques ou un ordre de couleurs
À l’inverse, les prompts narratifs faisant appel à l’émotion ou à l’imagination montrent une cohérence relativement meilleure
Globalement, les modèles GenAI révèlent encore des limites dans la compréhension de concepts composites et la restitution structurelle

Résumé

Cette expérience constitue une tentative intéressante pour évaluer la « vraie capacité de compréhension » des modèles texte-vers-image
Même des modèles récents comme Midjourney et OpenAI 4o échouent complètement sur certaines scènes logiques
Les résultats montrent que « comprendre un texte » et « en visualiser précisément le sens » sont deux problèmes différents
Le principal enjeu pour les progrès futurs des modèles semble être l’amélioration de l’alignement entre contexte linguistique et structure visuelle

1 commentaires

GN⁺ 2025-10-28

Avis Hacker News

C’est vraiment agaçant d’utiliser GPT-4o et de voir l’entreprise se comporter comme un arbitre moral, en refusant souvent les demandes des utilisateurs
Même des choses légales sont bloquées comme « non autorisées », ce qui donne l’impression d’une censure façon 1964 imposée par une entreprise
Avec GPT-5, c’est encore plus insupportable : chaque conversation commence par des formules de flatterie du genre « Excellente question » ou « Très bonne remarque »
- Des gens ont critiqué Altman pour avoir autorisé le NSFW dans ChatGPT, mais je pense que c’est la bonne direction pour réduire la censure d’entreprise
  Quand on entraîne le modèle avec des données de préférences utilisateur via le RLHF, cela a pour effet secondaire de rendre le modèle obséquieux
  Tous les grands LLM sont dans cet état actuellement, mais je trouve quand même ça préférable à GPT-4o
- Quand on utilise des modèles chinois, ils ont bien moins de restrictions, même s’il y a bien sûr quelques exceptions
- Je n’ai jamais vu de logiciel d’entreprise qui autorise le NSFW
  ChatGPT est un produit destiné aux entreprises, donc s’il pouvait générer des images violentes ou suggestives, les grandes entreprises ne l’achèteraient jamais
  Pour avoir travaillé comme acheteur logiciel pour des entreprises du Fortune 500, j’en suis certain à 100 %
J’ai trouvé étrange que l’article n’ait pas de date, mais Wayback montre que la page text-to-image a été ajoutée en avril et la page image editing en septembre
Sans date, on a l’impression au premier regard qu’elles ont été créées en même temps
- C’est probablement parce que des spécialistes SEO les ont convaincus que les articles sans date remontent mieux dans les moteurs de recherche
  J’espère que leurs deux côtés d’oreiller seront toujours chauds
- Oui, c’est un contenu assez ancien. En IA en ce moment, au bout d’une semaine c’est déjà dépassé
Au début, le terme « image editing » m’a embrouillé
En réalité, c’est une fonction qui génère une nouvelle image, mais le terme semble utilisé dans le sens de modification d’une image existante
Des modèles multimodaux comme Qwen3-VL-30B-A3B modifient très bien les images existantes. imagegpt.com était pas mal aussi, mais je ne sais pas quel modèle il utilise
- J’ai reçu ce retour plusieurs fois, donc je pense qu’il faut rendre la barre de navigation supérieure plus visible
  À noter que Qwen3-VL n’est pas un modèle de génération ou d’édition d’images, mais un modèle de raisonnement sur l’image
  Il utilisait probablement Qwen-Image-Edit en backend
- Sur le site que j’ai vu, cela ressemblait bien à de la modification d’image existante
  Par exemple, si on donne le prompt « ajouter des cheveux à un homme chauve », on obtient une version modifiée de l’image d’origine
  Techniquement, c’est un processus de génération d’une nouvelle image, mais je le vois comme l’équivalent d’un Save As dans Photoshop
Le vrai lien est https://genai-showdown.specr.net/image-editing
- Oui, c’est le lien pour l’édition. L’autre est pour le text-to-image
Je suppose que les modèles génèrent en interne plusieurs images puis n’affichent que le meilleur résultat
GPT-4o a une température faible, donc plus de cohérence mais moins de créativité, tandis que Midjourney, avec une température plus élevée, produit des arrière-plans et textures plus riches
Le ton sépia de 4o est peut-être du post-traitement
En pratique, il y a sans doute un workflow en plusieurs étapes pour affiner l’image finale
- Quand on fait tourner soi-même des modèles d’image en local, on se rend compte que la plupart des modèles hébergés ne génèrent pas plusieurs fois et n’exécutent qu’un seul passage
  En revanche, les modèles basés sur des LLM utilisent souvent la réécriture de prompt (prompt rewriting)
  Le cas de DALL·E 3 est bien expliqué dans cet article
- Ce serait encore plus intéressant s’ils publiaient le nombre de tentatives de génération et les résultats pour chaque prompt
J’ai upvoté immédiatement en voyant « Alexander the Great on a Hippity Hop »
- J’avais complètement oublié ce jouet moi aussi, mais ça m’a rappelé des souvenirs d’enfance
- Cela dit, j’aime encore plus l’image chimérique du cheval
Si vous voulez comparer des modèles d’image, vous pouvez essayer gratuitement sur BrandImageGen.com
J’attends les retours des inscrits
Quelqu’un demande où est passé le mème « ne dessine pas l’éléphant vert » et note qu’il a été proposé dans cette discussion GitHub
Quelqu’un a publié un article de comparatif sur plusieurs outils de génération d’images
Lien Generative AI Review
Grâce à « Editing Showdown », j’ai découvert pour la première fois le modèle Seedream
En revanche, je ne comprends pas bien le fonctionnement exact où plusieurs essais sont faits puis évalués par un autre LLM. J’ai l’impression que cela limite forcément la précision
- La FAQ explique clairement les critères d’évaluation
  C’est un système PASS/FAIL : si le modèle n’arrive pas une seule fois à générer une image correspondant au prompt, c’est considéré comme un échec
  L’idée est celle d’un test de Pictionary : « si on montre l’image à n’importe qui dans la rue, pourra-t-il deviner le prompt ? »
  L’évaluation finale est décidée manuellement selon des critères clairs
- Le fait qu’un LLM évalue un autre LLM est la norme dans l’industrie
  On ne peut pas enfermer des évaluateurs humains dans une boîte pour leur faire juger 7600 résultats
  Bien sûr, l’évaluation par LLM n’est pas parfaite, mais en matière de comparabilité et de cohérence, elle vaut mieux que l’humain
  Et tant qu’on ne l’utilise pas comme objectif d’optimisation mais seulement comme thermomètre de performance, ce n’est pas un gros problème
  En revanche, si on en fait la cible à optimiser, on peut obtenir des résultats bizarres comme avec GPT-5

Showdown d’images GenAI

Aperçu de l’expérience

Principaux résultats des tests

Exemples de tests supplémentaires

Analyse et implications

Résumé

À lire aussi

1 commentaires

Avis Hacker News