1 points par GN⁺ 2025-10-28 | 1 commentaires | Partager sur WhatsApp
  • Projet expérimental testant plusieurs modèles d’IA de génération d’images avec le même prompt afin d’évaluer leur précision, créativité et cohérence
  • Un total de 14 modèles ont participé, dont OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev et Midjourney v7
  • Tous les modèles ont généré des images sans inpainting ni fonctions d’édition, uniquement à partir de la description fournie
  • Chaque test repose sur un seuil minimal de réussite clairement défini, et le taux de succès est calculé selon le respect des éléments visuels demandés
  • Les résultats mettent en évidence des écarts de performance entre les modèles et montrent que la compréhension de concepts complexes ou la génération de structures mathématiques restent difficiles

Aperçu de l’expérience

  • Il s’agit d’une expérience comparative de benchmark évaluant la capacité de génération pure de chaque modèle sur la base de règles strictes
    • Les fonctions comme l’inpainting, le remix ou les consignes de retouche ultérieures sont toutes interdites
    • Chaque modèle n’est autorisé qu’à quelques dizaines d’essais par prompt
  • Les critères d’évaluation portent avant tout sur le respect précis des conditions visuelles

Principaux résultats des tests

  • The Prussian Ring Toss
    • Une scène où des soldats prussiens se lancent des anneaux sur leurs casques à pointe
    • 5 modèles sur 6 satisfont aux conditions, soit le meilleur taux de réussite
  • Nine-Pointed Star
    • Une tâche consistant à générer correctement une étoile à 9 pointes
    • La majorité des modèles ont échoué en convergeant vers des formes paires, seuls 3 ont réussi
  • Spheron
    • Une peinture à l’huile représentant Alexandre le Grand combattant en chevauchant un jouet « Hippity Hop »
    • Testant la capacité à combiner contexte historique et objet moderne, seulement 4 modèles ont réussi
  • Cubed⁵
    • Une scène avec 5 cubes de verre transparents empilés verticalement dans l’ordre rouge–bleu–vert–violet–jaune
    • 5 modèles l’ont reproduite correctement, avec un fort impact du ratio vertical sur la qualité du résultat
  • Cephalopodic Puppet Show
    • Une scène où chacune des 8 tentacules d’une pieuvre porte une marionnette-chaussette
    • Test nécessitant une compréhension conceptuelle, seules la moitié des tentatives satisfont aux conditions

Exemples de tests supplémentaires

  • Quantum Entangled Einstein : représentation d’Einstein et d’une ampoule liée à des idées sur la mécanique quantique → 3/6 réussites
  • The Yarrctic Circle : image d’un pirate arctique portant une prothèse de jambe en glace → 6/6 réussites pour tous
  • The Labyrinth : génération d’un labyrinthe 2D avec entrée, sortie et chemin clairement définis → 1/6 réussite
  • A Dicey Situation : implémenter sur un dé à 20 faces (D20) des faces gravées uniquement avec des nombres premiers → 0/6, échec total

Analyse et implications

  • Les erreurs sont plus fréquentes sur les structures logiques et les descriptions régies par des règles que sur le simple style visuel
  • Le taux d’échec est particulièrement élevé pour les prompts imposant des conditions précises comme du texte, des nombres, des structures symétriques ou un ordre de couleurs
  • À l’inverse, les prompts narratifs faisant appel à l’émotion ou à l’imagination montrent une cohérence relativement meilleure
  • Globalement, les modèles GenAI révèlent encore des limites dans la compréhension de concepts composites et la restitution structurelle

Résumé

  • Cette expérience constitue une tentative intéressante pour évaluer la « vraie capacité de compréhension » des modèles texte-vers-image
  • Même des modèles récents comme Midjourney et OpenAI 4o échouent complètement sur certaines scènes logiques
  • Les résultats montrent que « comprendre un texte » et « en visualiser précisément le sens » sont deux problèmes différents
  • Le principal enjeu pour les progrès futurs des modèles semble être l’amélioration de l’alignement entre contexte linguistique et structure visuelle

1 commentaires

 
GN⁺ 2025-10-28
Avis Hacker News
  • C’est vraiment agaçant d’utiliser GPT-4o et de voir l’entreprise se comporter comme un arbitre moral, en refusant souvent les demandes des utilisateurs
    Même des choses légales sont bloquées comme « non autorisées », ce qui donne l’impression d’une censure façon 1964 imposée par une entreprise
    Avec GPT-5, c’est encore plus insupportable : chaque conversation commence par des formules de flatterie du genre « Excellente question » ou « Très bonne remarque »
    • Des gens ont critiqué Altman pour avoir autorisé le NSFW dans ChatGPT, mais je pense que c’est la bonne direction pour réduire la censure d’entreprise
      Quand on entraîne le modèle avec des données de préférences utilisateur via le RLHF, cela a pour effet secondaire de rendre le modèle obséquieux
      Tous les grands LLM sont dans cet état actuellement, mais je trouve quand même ça préférable à GPT-4o
    • Quand on utilise des modèles chinois, ils ont bien moins de restrictions, même s’il y a bien sûr quelques exceptions
    • Je n’ai jamais vu de logiciel d’entreprise qui autorise le NSFW
      ChatGPT est un produit destiné aux entreprises, donc s’il pouvait générer des images violentes ou suggestives, les grandes entreprises ne l’achèteraient jamais
      Pour avoir travaillé comme acheteur logiciel pour des entreprises du Fortune 500, j’en suis certain à 100 %
  • J’ai trouvé étrange que l’article n’ait pas de date, mais Wayback montre que la page text-to-image a été ajoutée en avril et la page image editing en septembre
    Sans date, on a l’impression au premier regard qu’elles ont été créées en même temps
    • C’est probablement parce que des spécialistes SEO les ont convaincus que les articles sans date remontent mieux dans les moteurs de recherche
      J’espère que leurs deux côtés d’oreiller seront toujours chauds
    • Oui, c’est un contenu assez ancien. En IA en ce moment, au bout d’une semaine c’est déjà dépassé
  • Au début, le terme « image editing » m’a embrouillé
    En réalité, c’est une fonction qui génère une nouvelle image, mais le terme semble utilisé dans le sens de modification d’une image existante
    Des modèles multimodaux comme Qwen3-VL-30B-A3B modifient très bien les images existantes. imagegpt.com était pas mal aussi, mais je ne sais pas quel modèle il utilise
    • J’ai reçu ce retour plusieurs fois, donc je pense qu’il faut rendre la barre de navigation supérieure plus visible
      À noter que Qwen3-VL n’est pas un modèle de génération ou d’édition d’images, mais un modèle de raisonnement sur l’image
      Il utilisait probablement Qwen-Image-Edit en backend
    • Sur le site que j’ai vu, cela ressemblait bien à de la modification d’image existante
      Par exemple, si on donne le prompt « ajouter des cheveux à un homme chauve », on obtient une version modifiée de l’image d’origine
      Techniquement, c’est un processus de génération d’une nouvelle image, mais je le vois comme l’équivalent d’un Save As dans Photoshop
  • Le vrai lien est https://genai-showdown.specr.net/image-editing
    • Oui, c’est le lien pour l’édition. L’autre est pour le text-to-image
  • Je suppose que les modèles génèrent en interne plusieurs images puis n’affichent que le meilleur résultat
    GPT-4o a une température faible, donc plus de cohérence mais moins de créativité, tandis que Midjourney, avec une température plus élevée, produit des arrière-plans et textures plus riches
    Le ton sépia de 4o est peut-être du post-traitement
    En pratique, il y a sans doute un workflow en plusieurs étapes pour affiner l’image finale
    • Quand on fait tourner soi-même des modèles d’image en local, on se rend compte que la plupart des modèles hébergés ne génèrent pas plusieurs fois et n’exécutent qu’un seul passage
      En revanche, les modèles basés sur des LLM utilisent souvent la réécriture de prompt (prompt rewriting)
      Le cas de DALL·E 3 est bien expliqué dans cet article
    • Ce serait encore plus intéressant s’ils publiaient le nombre de tentatives de génération et les résultats pour chaque prompt
  • J’ai upvoté immédiatement en voyant « Alexander the Great on a Hippity Hop »
    • J’avais complètement oublié ce jouet moi aussi, mais ça m’a rappelé des souvenirs d’enfance
    • Cela dit, j’aime encore plus l’image chimérique du cheval
  • Si vous voulez comparer des modèles d’image, vous pouvez essayer gratuitement sur BrandImageGen.com
    J’attends les retours des inscrits
  • Quelqu’un demande où est passé le mème « ne dessine pas l’éléphant vert » et note qu’il a été proposé dans cette discussion GitHub
  • Quelqu’un a publié un article de comparatif sur plusieurs outils de génération d’images
    Lien Generative AI Review
  • Grâce à « Editing Showdown », j’ai découvert pour la première fois le modèle Seedream
    En revanche, je ne comprends pas bien le fonctionnement exact où plusieurs essais sont faits puis évalués par un autre LLM. J’ai l’impression que cela limite forcément la précision
    • La FAQ explique clairement les critères d’évaluation
      C’est un système PASS/FAIL : si le modèle n’arrive pas une seule fois à générer une image correspondant au prompt, c’est considéré comme un échec
      L’idée est celle d’un test de Pictionary : « si on montre l’image à n’importe qui dans la rue, pourra-t-il deviner le prompt ? »
      L’évaluation finale est décidée manuellement selon des critères clairs
    • Le fait qu’un LLM évalue un autre LLM est la norme dans l’industrie
      On ne peut pas enfermer des évaluateurs humains dans une boîte pour leur faire juger 7600 résultats
      Bien sûr, l’évaluation par LLM n’est pas parfaite, mais en matière de comparabilité et de cohérence, elle vaut mieux que l’humain
      Et tant qu’on ne l’utilise pas comme objectif d’optimisation mais seulement comme thermomètre de performance, ce n’est pas un gros problème
      En revanche, si on en fait la cible à optimiser, on peut obtenir des résultats bizarres comme avec GPT-5