Présentation de ChatGPT Images 2.0

(openai.com)

6 points par GN⁺ 2026-04-22 | 4 commentaires | Partager sur WhatsApp

OpenAI a dévoilé la nouvelle génération de son modèle de génération d’images et a choisi de le présenter sans texte dans le billet lui-même, uniquement via du texte intégré dans des images générées avec Images 2.0
L’accent est mis sur la production de résultats immédiatement exploitables, y compris pour des tâches visuelles complexes et un rendu de texte précis
Il s’agit du premier modèle d’image doté d’une capacité de réflexion (thinking), capable d’effectuer des recherches web, de générer plusieurs images simultanément et de vérifier ses propres sorties
Les performances de rendu des écritures non latines ont fortement progressé, notamment pour le japonais, le coréen, le chinois, l’hindi et le bengali, ce qui le rend pratique pour la création de designs multilingues
La prise en charge flexible des formats d’image de 3:1 à 1:3 permet de répondre immédiatement à divers usages comme les bannières, posters ou écrans mobiles
OpenAI présente cette évolution comme un passage d’un outil de rendu à un système de design stratégique, disponible dans ChatGPT, Codex et l’API

Une nouvelle ère pour la génération d’images

Les images y sont définies non comme un simple ornement, mais comme un langage à part entière, capable d’expliquer un mécanisme, d’installer une ambiance, de valider une idée ou de porter un message
Après le lancement de ChatGPT Images il y a un an, qui a montré que l’image IA pouvait être belle et utile, Images 2.0 se présente comme un modèle de nouvelle génération capable de traiter avec précision des tâches visuelles complexes
Meilleure fidélité aux consignes détaillées, progrès marqués dans le placement précis des objets, l’expression de leurs relations et le rendu de blocs de texte denses
La composition et le sens visuel sont suffisamment réussis pour que le résultat donne davantage l’impression d’un design intentionnel que d’une image générée par IA
Le modèle fonctionne correctement dans différentes langues et exploite une connaissance visuelle et du monde élargie pour générer des images plus intelligentes avec moins de prompts
Ce modèle combine l’intelligence des modèles de raisonnement d’OpenAI et une compréhension visuelle du monde, faisant évoluer la génération d’images du simple rendu vers un design stratégique, et l’outil vers un système visuel
Disponible dès aujourd’hui pour l’ensemble des utilisateurs de ChatGPT, Codex et de l’API

Précision et contrôle accrus

Images 2.0 offre une spécificité et une fidélité sans précédent dans la génération d’images
Il ne se contente pas d’imaginer des visuels plus sophistiqués : il les met aussi en œuvre efficacement, avec des points forts sur le respect des consignes, la conservation des détails demandés et le rendu des éléments fins
Il gère jusqu’à une résolution 2K des éléments que les anciens modèles d’image traitaient mal : petits textes, icônes, éléments d’interface, compositions denses et contraintes de style subtiles
Il produit non pas des images “à peu près similaires”, mais des résultats réellement prêts à l’emploi

Prise en charge renforcée du texte multilingue

Les modèles précédents étaient cohérents en anglais et dans les langues à alphabet latin, mais restaient limités pour les écritures non latines complexes ou denses
Images 2.0 améliore sa compréhension multilingue et progresse particulièrement dans le rendu de texte non latin, surtout pour le japonais, le coréen, le chinois, l’hindi et le bengali
Au-delà d’un rendu exact du texte non anglais, il peut produire des résultats linguistiquement naturels et fluides
Il ne s’agit pas seulement de traduire des étiquettes : il conserve aussi la cohérence visuelle dans des posters, supports explicatifs, diagrammes ou bandes dessinées où la langue fait partie du design
Les utilisateurs peuvent créer des visuels dans la langue qu’ils utilisent réellement, ce qui renforce sa portée globale

Raffinement stylistique et réalisme

Images 2.0 améliore nettement sa fidélité à travers une grande variété de styles visuels
Il progresse dans la cohérence des textures, de l’éclairage, de la composition et des détails pour des langages visuels distinctifs comme la photo — y compris ses petites imperfections qui renforcent le réalisme —, le plan de film, le pixel art ou la bande dessinée
Il ne se contente pas d’approcher le style demandé : il produit des résultats qui le restituent fidèlement
Il est particulièrement utile pour le prototypage de jeux, les storyboards, les créations marketing et la production d’assets pour des médias ou genres spécifiques

Prise en charge flexible des formats

Large prise en charge des ratios d’image, de 3:1 (horizontal) à 1:3 (vertical)
Il peut générer immédiatement des résultats adaptés au format requis, qu’il s’agisse de bannières larges, de slides de présentation, de posters, d’écrans mobiles, de marque-pages ou de visuels pour les réseaux sociaux
Il est possible de spécifier le ratio souhaité dans le prompt ou de régénérer à une nouvelle taille via des options prédéfinies

Intelligence du monde réel

Images 2.0 intègre une compréhension du monde plus récente dans la génération d’images, avec une date de coupure des connaissances mise à jour à décembre 2025
Cela le rend avantageux pour des productions comme des supports explicatifs, cartes, graphiques pédagogiques ou résumés visuels, où la précision et la clarté comptent autant que l’esthétique
Grâce à son intelligence améliorée, il peut prendre en charge un flux de travail de bout en bout, de la synthèse d’informations à la rédaction de copy puis à la visualisation
- Il dispose d’un sens du design propre et structuré, attentif à l’espace blanc, à la lisibilité et au flux

Un partenaire de réflexion visuelle

En sélectionnant le modèle thinking ou pro, le modèle consacre davantage de temps à comprendre et exécuter la tâche de manière agentique
Il peut rechercher des informations pertinentes sur le web, transformer des documents fournis en supports visuels explicatifs clairs, et raisonner sur la structure d’une image avant sa génération
Dans ce mode, Images 2.0 fonctionne comme un partenaire de réflexion visuelle, réduisant fortement la charge de travail de l’utilisateur, du concept initial à l’asset final
En mode thinking, il peut générer simultanément plusieurs images différentes en une seule fois — une première pour la génération d’images de ChatGPT
- Cela permet des workflows comme une série de pages de BD, des pistes de redesign complet d’une maison, une famille de concepts d’affiches, ou des ensembles de visuels sociaux dans différents ratios et langues
Au lieu de prompter les images une par une puis de les assembler manuellement, l’utilisateur peut demander en une seule fois jusqu’à 10 résultats cohérents, avec continuité des personnages et des objets
- Chaque résultat se construit séquentiellement sur le précédent

4 commentaires

j2sus91 2026-04-22

Il y a du raisonnement dans l’image, et le résultat est hallucinant.

J’ai juste lancé quelques mots-clés liés à une nouvelle activité,
et ça infère même le message clé et les pain points pour les intégrer à la landing page.

Reprendre tel quel les couleurs de marque, le ton du message de marque et même les modèles du site de référence que je lui avais donné, c’est presque la base à ce stade.
Le coréen ne s’affiche absolument pas en caractères cassés non plus, donc le potentiel d’utilisation à l’avenir semble énorme..

Franchement, l’évolution de l’IA commence de plus en plus à faire peur.

kirinonakar 2026-04-22

C’est impressionnant. J’avais déjà été surpris quand Nano Banana est sorti, mais c’est encore meilleur. On dirait que la concurrence accélère vraiment les progrès.

xguru 2026-04-22

Oh… pour le traitement du texte, c’était plutôt niveau Nano Banana, mais cette fois, on dirait qu’ils ont vraiment affûté leurs armes.
J’ai transformé tout le texte du billet de présentation en image.
On peut faire défiler et lire l’intégralité du texte sous forme d’images.
L’écriture cursive au milieu est assez marquante.

GN⁺ 2026-04-22

Avis sur Hacker News

J’ai testé le nouveau modèle comme ça. J’ai généré avec gpt-image-2 une « image de style Where's Waldo où l’on cherche un raton laveur tenant une radio amateur », et le code est ici. Le résultat est cette image, mais honnêtement je ne suis même pas certain que le raton laveur tienne bien une radio amateur. De toute façon, avec les tests de type Where's Waldo, je n’ai jamais vraiment la patience de chercher jusqu’au bout
- Je l’ai relancé avec la commande utilisant la résolution maximale et j’ai obtenu un résultat bien meilleur. Je me suis basé sur la taille recommandée dans l’OpenAI cookbook (lien), et le résultat est ici. Cette fois, j’ai bien trouvé le raccoon, et j’ai l’impression qu’une image a coûté environ 40 centimes
- Je suis reconnaissant pour cette image, mais les visages sont tellement grotesques que j’ai l’impression qu’ils pourraient apparaître dans mes cauchemars
- Je pense que ce prompt est une tâche vraiment atrocement difficile pour les modèles de type diffusion actuels. Du coup, la simple tentative me paraît déjà impressionnante
- En lisant « je n’ai pas la patience de chercher jusqu’au bout », je me suis dit qu’on pourrait carrément en faire un nouveau benchmark IA
- J’ai eu l’impression que ce type de tâche relevait d’un domaine où l’IA restera forcément faible sur les détails structurels. De loin, ça semble plausible, mais de près on voit trop d’erreurs : des visages qui ont l’air de hurler, des panneaux qui pointent dans les deux sens à la fois, des tentes de secours inexistantes, des chiens qui ressemblent à des monstres. Les échantillons promotionnels sont similaires, et même des exemples comme l’anatomie ou le tableau périodique s’effondrent dès qu’on regarde de près. Au final, je reste sceptique à l’idée qu’on utilise autant de RAM & GPUs, d’eau et d’électricité pour produire une version plus médiocre de Where's Waldo
En expérimentant avec Nano Banana Pro, j’ai créé un prompt très amusant pour tester la capacité des modèles d’image à respecter des règles. En gros : « placer les Pokémon dont les numéros de Pokédex national correspondent aux 64 premiers nombres premiers dans une grille 8x8, et les dessiner en style 8-bit, fusain ou Ukiyo-e selon le nombre de chiffres du numéro ». Le résultat de NBP est ici : les numéros, les Pokémon et les styles sont globalement corrects, même s’il y a un débat sur une application paresseuse du style et un rendu qui peut sembler plagiaire. Le résultat du même prompt avec gpt-2-image high est ici : le style paraît plus créatif et plus original, mais la logique de style a été appliquée par ligne au lieu d’être basée sur les chiffres, quelques Pokémon sont faux, la police est incorrecte, et le bas n’était même pas carré. C’était un résultat assez étrange
- Je trouve ce test vraiment excellent, et en même temps je trouve presque comique que gpt-2-image soit aussi mauvais. J’en viens à penser qu’une image plagiarized récupérée par recherche et copiée-collée aurait été préférable. Il ne semble même pas y avoir de contrôle de cohérence ni de post-traitement pour vérifier si « les instructions ont bien été suivies », alors que les violations des contraintes de style par nombre de chiffres auraient été faciles à repérer. Et vu le prix, c’est encore plus décevant si le résultat est en pratique inutilisable
- Je me suis plutôt demandé pourquoi ce prompt était considéré comme un bon prompt
J’ai résumé les coûts : avec gemini-3.1-flash-image-preview, générer une image 4096x4096 coûte 2 520 tokens, soit environ 0,151 $ par image, tandis qu’avec gpt-image-2, une image 3840x2160 coûte 13 342 tokens, soit environ 0,4 $. Donc ce modèle est plus de deux fois plus cher que Gemini
- Je trouve que cette comparaison est apples to oranges. On compare une version flash à une version complète, et sur les détails fins, celui-ci me paraît subjectivement environ 5 fois meilleur que la version flash
J’ai un hard prompt que j’utilise toujours pour tester les modèles de génération d’images. J’y mets en une seule fois des conditions comme les mains d’un vieil horloger, une montre de poche vintage, de l’eau peu profonde, la réfraction et les caustiques, des gouttes qui tombent, un visage déformé reflété dans une surface en verre, un objectif macro 100 mm, etc. J’ai mis les images obtenues sur Google Drive, et même après plusieurs essais à la fois sur le web et via l’API, l’ensemble n’était pas aussi bon que Nano Banana
- Je me suis demandé pourquoi c’était considéré comme un bon prompt
- J’ai essayé de voir les images partagées, mais il semblait y avoir un rate limit côté hébergeur, donc je voulais juste le signaler
- J’ai confirmé que les liens semblent cassés
Je trouve que gpt-image-1.5 d’OpenAI et NB2 de Google sont assez au coude-à-coude sur mon site de comparaison. Dans une évaluation centrée sur le respect du prompt, ils tournaient tous deux autour de 70 % de réussite en génération comme en édition, et en qualité visuelle Gemini gardait toujours un léger avantage. Malgré tout, gpt-image-1.5 représentait un gros bond en avant pour OpenAI et corrigeait beaucoup d’anciens problèmes chroniques, comme le fameux « piss filter ». Les graphiques comparatifs sont visibles pour l’édition ici et pour la génération ici. D’après la mise à jour, gpt-image-2 a réussi l’épreuve de l’étoile à 9 branches, qui était le soi-disant model killer du jeu de test, et il a validé 12 cas sur 15 dans le benchmark texte-vers-image, dépassant l’ancien meilleur modèle d’un point. En revanche, il échoue encore sur le serpent corail avec ordre de couleurs strict, le D20 avec les 20 premiers nombres premiers inscrits sur les faces, et la planète plate de type Terre avec des humains débordant sur les bords. La comparaison complète est sur All Models, et pour les principaux modèles c’est ici
J’ai récapitulé la comparaison de prix. GPT Image 2 coûte en Low 0,006 $ pour 1024x1024, 0,005 $ pour 1024x1536 et 1536x1024 ; en Medium, respectivement 0,053 $, 0,041 $, 0,041 $ ; et en High, 0,211 $, 0,165 $, 0,165 $. En revanche, GPT Image 1 coûtait en Low 0,011 $, 0,016 $, 0,016 $ ; en Medium 0,042 $, 0,063 $, 0,063 $ ; et en High 0,167 $, 0,25 $, 0,25 $
- Je trouve un peu étrange que la limitation de résolution soit aussi forte. Je me demande si, en montant davantage, les détails s’effondrent au zoom, ou si c’est simplement le coût qui explose
- J’ai trouvé intéressant qu’en v2, les grandes sorties coûtent plus cher qu’un petit carré, alors qu’en v1 c’est l’inverse. Je me demande pourquoi ils ont adopté cette structure tarifaire
J’ai confirmé que cette fois, le modèle avait réussi le test des touches de piano. Un exemple réussi est ici, même si l’étiquetage du do central était faux dans cet essai. Cela dit, après une nouvelle demande, il a réussi à le corriger
- Quand NB 2 est sorti, j’ai encore augmenté la difficulté de ce test. J’ai inversé les couleurs de toutes les accidentals et de toutes les notes naturelles, et malgré ça il l’a reproduit parfaitement ; l’exemple est ici
Je trouve que l’amélioration du rendu du texte chinois est vraiment visible et impressionnante. Il restait quand même des fautes dans l’image d’exemple de Wuxi ; par exemple, le caractère 笼 de 小笼包 était incorrect. Il y avait aussi d’autres fautes dans la section « 极小中文也清晰可读 », mais cela ne gênait pas vraiment la lecture. Malgré cela, il me semble évident que c’est bien meilleur que les anciens modèles de génération d’images, et de très loin
- Je me demande même si c’est meilleur que les modèles chinois développés localement en Chine. Vu qu’ils ont probablement beaucoup plus d’exemples en chinois dans leurs données d’entraînement, je m’attendrais en général à ce qu’ils soient plus avancés sur ce point
Je pense que c’est le bon moment pour parler de C2PA. C’est une norme destinée à prouver activement la provenance des images, et OpenAI en fait aussi partie. Quand je mets une image générée par IA dans C2PA Viewer, la provenance s’affiche comme venant de ChatGPT. Bien sûr, un utilisateur malveillant peut supprimer les métadonnées pour faire passer l’image pour une image ordinaire, mais à long terme je pense qu’il faudrait traiter les images sans indication de provenance comme un signal de risque, un peu comme le non-https. Plus de détails sur c2pa.org
- J’ai l’impression qu’il est difficile de réduire le problème aux seuls bad actors. La plupart des plateformes comme Instagram ou Facebook suppriment par défaut les métadonnées pour des raisons de confidentialité, et l’EXIF peut contenir des informations comme la géolocalisation, le nom du fichier, l’heure de création ou les informations sur l’appareil. Du coup, en pratique, le vrai problème pour la préservation de C2PA semble moins être la manipulation malveillante que le fait que la majorité des sites suppriment les métadonnées lors de l’upload des images
- Je voulais ajouter qu’OpenAI joint des manifests C2PA aux images générées depuis le début. Et selon ma petite évaluation personnelle, des détecteurs récents d’images IA basés sur le ML, comme OmniAID, repéraient plutôt bien les images générées par GPT-Image-2. L’article correspondant est ici, et j’ai moi-même créé un détecteur d’images IA on-device en combinant les deux
J’ai utilisé ce modèle pendant quelques heures et, honnêtement, je l’ai trouvé assez impressionnant. C’est la première fois qu’un modèle d’image me donne vraiment l’impression d’être utile dans mon travail réel, notamment pour des slides PowerPoint et la création de mockups