Présentation de ChatGPT Images 2.0
(openai.com)- OpenAI a dévoilé la nouvelle génération de son modèle de génération d’images et a choisi de le présenter sans texte dans le billet lui-même, uniquement via du texte intégré dans des images générées avec Images 2.0
- L’accent est mis sur la production de résultats immédiatement exploitables, y compris pour des tâches visuelles complexes et un rendu de texte précis
- Il s’agit du premier modèle d’image doté d’une capacité de réflexion (
thinking), capable d’effectuer des recherches web, de générer plusieurs images simultanément et de vérifier ses propres sorties - Les performances de rendu des écritures non latines ont fortement progressé, notamment pour le japonais, le coréen, le chinois, l’hindi et le bengali, ce qui le rend pratique pour la création de designs multilingues
- La prise en charge flexible des formats d’image de 3:1 à 1:3 permet de répondre immédiatement à divers usages comme les bannières, posters ou écrans mobiles
- OpenAI présente cette évolution comme un passage d’un outil de rendu à un système de design stratégique, disponible dans ChatGPT, Codex et l’API
Une nouvelle ère pour la génération d’images
- Les images y sont définies non comme un simple ornement, mais comme un langage à part entière, capable d’expliquer un mécanisme, d’installer une ambiance, de valider une idée ou de porter un message
- Après le lancement de ChatGPT Images il y a un an, qui a montré que l’image IA pouvait être belle et utile, Images 2.0 se présente comme un modèle de nouvelle génération capable de traiter avec précision des tâches visuelles complexes
- Meilleure fidélité aux consignes détaillées, progrès marqués dans le placement précis des objets, l’expression de leurs relations et le rendu de blocs de texte denses
- La composition et le sens visuel sont suffisamment réussis pour que le résultat donne davantage l’impression d’un design intentionnel que d’une image générée par IA
- Le modèle fonctionne correctement dans différentes langues et exploite une connaissance visuelle et du monde élargie pour générer des images plus intelligentes avec moins de prompts
- Ce modèle combine l’intelligence des modèles de raisonnement d’OpenAI et une compréhension visuelle du monde, faisant évoluer la génération d’images du simple rendu vers un design stratégique, et l’outil vers un système visuel
- Disponible dès aujourd’hui pour l’ensemble des utilisateurs de ChatGPT, Codex et de l’API
Précision et contrôle accrus
- Images 2.0 offre une spécificité et une fidélité sans précédent dans la génération d’images
- Il ne se contente pas d’imaginer des visuels plus sophistiqués : il les met aussi en œuvre efficacement, avec des points forts sur le respect des consignes, la conservation des détails demandés et le rendu des éléments fins
- Il gère jusqu’à une résolution 2K des éléments que les anciens modèles d’image traitaient mal : petits textes, icônes, éléments d’interface, compositions denses et contraintes de style subtiles
- Il produit non pas des images “à peu près similaires”, mais des résultats réellement prêts à l’emploi
Prise en charge renforcée du texte multilingue
- Les modèles précédents étaient cohérents en anglais et dans les langues à alphabet latin, mais restaient limités pour les écritures non latines complexes ou denses
- Images 2.0 améliore sa compréhension multilingue et progresse particulièrement dans le rendu de texte non latin, surtout pour le japonais, le coréen, le chinois, l’hindi et le bengali
- Au-delà d’un rendu exact du texte non anglais, il peut produire des résultats linguistiquement naturels et fluides
- Il ne s’agit pas seulement de traduire des étiquettes : il conserve aussi la cohérence visuelle dans des posters, supports explicatifs, diagrammes ou bandes dessinées où la langue fait partie du design
- Les utilisateurs peuvent créer des visuels dans la langue qu’ils utilisent réellement, ce qui renforce sa portée globale
Raffinement stylistique et réalisme
- Images 2.0 améliore nettement sa fidélité à travers une grande variété de styles visuels
- Il progresse dans la cohérence des textures, de l’éclairage, de la composition et des détails pour des langages visuels distinctifs comme la photo — y compris ses petites imperfections qui renforcent le réalisme —, le plan de film, le pixel art ou la bande dessinée
- Il ne se contente pas d’approcher le style demandé : il produit des résultats qui le restituent fidèlement
- Il est particulièrement utile pour le prototypage de jeux, les storyboards, les créations marketing et la production d’assets pour des médias ou genres spécifiques
Prise en charge flexible des formats
- Large prise en charge des ratios d’image, de 3:1 (horizontal) à 1:3 (vertical)
- Il peut générer immédiatement des résultats adaptés au format requis, qu’il s’agisse de bannières larges, de slides de présentation, de posters, d’écrans mobiles, de marque-pages ou de visuels pour les réseaux sociaux
- Il est possible de spécifier le ratio souhaité dans le prompt ou de régénérer à une nouvelle taille via des options prédéfinies
Intelligence du monde réel
- Images 2.0 intègre une compréhension du monde plus récente dans la génération d’images, avec une date de coupure des connaissances mise à jour à décembre 2025
- Cela le rend avantageux pour des productions comme des supports explicatifs, cartes, graphiques pédagogiques ou résumés visuels, où la précision et la clarté comptent autant que l’esthétique
- Grâce à son intelligence améliorée, il peut prendre en charge un flux de travail de bout en bout, de la synthèse d’informations à la rédaction de copy puis à la visualisation
- Il dispose d’un sens du design propre et structuré, attentif à l’espace blanc, à la lisibilité et au flux
Un partenaire de réflexion visuelle
- En sélectionnant le modèle thinking ou pro, le modèle consacre davantage de temps à comprendre et exécuter la tâche de manière agentique
- Il peut rechercher des informations pertinentes sur le web, transformer des documents fournis en supports visuels explicatifs clairs, et raisonner sur la structure d’une image avant sa génération
- Dans ce mode, Images 2.0 fonctionne comme un partenaire de réflexion visuelle, réduisant fortement la charge de travail de l’utilisateur, du concept initial à l’asset final
- En mode thinking, il peut générer simultanément plusieurs images différentes en une seule fois — une première pour la génération d’images de ChatGPT
- Cela permet des workflows comme une série de pages de BD, des pistes de redesign complet d’une maison, une famille de concepts d’affiches, ou des ensembles de visuels sociaux dans différents ratios et langues
- Au lieu de prompter les images une par une puis de les assembler manuellement, l’utilisateur peut demander en une seule fois jusqu’à 10 résultats cohérents, avec continuité des personnages et des objets
- Chaque résultat se construit séquentiellement sur le précédent
4 commentaires
Il y a du raisonnement dans l’image, et le résultat est hallucinant.
J’ai juste lancé quelques mots-clés liés à une nouvelle activité,
et ça infère même le message clé et les pain points pour les intégrer à la landing page.
Reprendre tel quel les couleurs de marque, le ton du message de marque et même les modèles du site de référence que je lui avais donné, c’est presque la base à ce stade.
Le coréen ne s’affiche absolument pas en caractères cassés non plus, donc le potentiel d’utilisation à l’avenir semble énorme..
Franchement, l’évolution de l’IA commence de plus en plus à faire peur.
C’est impressionnant. J’avais déjà été surpris quand Nano Banana est sorti, mais c’est encore meilleur. On dirait que la concurrence accélère vraiment les progrès.
Oh… pour le traitement du texte, c’était plutôt niveau Nano Banana, mais cette fois, on dirait qu’ils ont vraiment affûté leurs armes.
J’ai transformé tout le texte du billet de présentation en image.
On peut faire défiler et lire l’intégralité du texte sous forme d’images.
L’écriture cursive au milieu est assez marquante.
Avis sur Hacker News
gpt-image-2une « image de style Where's Waldo où l’on cherche un raton laveur tenant une radio amateur », et le code est ici. Le résultat est cette image, mais honnêtement je ne suis même pas certain que le raton laveur tienne bien une radio amateur. De toute façon, avec les tests de type Where's Waldo, je n’ai jamais vraiment la patience de chercher jusqu’au boutgemini-3.1-flash-image-preview, générer une image 4096x4096 coûte 2 520 tokens, soit environ 0,151 $ par image, tandis qu’avecgpt-image-2, une image 3840x2160 coûte 13 342 tokens, soit environ 0,4 $. Donc ce modèle est plus de deux fois plus cher que Geminigpt-image-1.5d’OpenAI et NB2 de Google sont assez au coude-à-coude sur mon site de comparaison. Dans une évaluation centrée sur le respect du prompt, ils tournaient tous deux autour de 70 % de réussite en génération comme en édition, et en qualité visuelle Gemini gardait toujours un léger avantage. Malgré tout,gpt-image-1.5représentait un gros bond en avant pour OpenAI et corrigeait beaucoup d’anciens problèmes chroniques, comme le fameux « piss filter ». Les graphiques comparatifs sont visibles pour l’édition ici et pour la génération ici. D’après la mise à jour,gpt-image-2a réussi l’épreuve de l’étoile à 9 branches, qui était le soi-disant model killer du jeu de test, et il a validé 12 cas sur 15 dans le benchmark texte-vers-image, dépassant l’ancien meilleur modèle d’un point. En revanche, il échoue encore sur le serpent corail avec ordre de couleurs strict, le D20 avec les 20 premiers nombres premiers inscrits sur les faces, et la planète plate de type Terre avec des humains débordant sur les bords. La comparaison complète est sur All Models, et pour les principaux modèles c’est iciGPT-Image-2. L’article correspondant est ici, et j’ai moi-même créé un détecteur d’images IA on-device en combinant les deux