Présentation de ChatGPT Images 2.0

(openai.com)

5 points par GN⁺ 8 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

OpenAI a dévoilé la nouvelle génération de son modèle de génération d’images et a choisi de le présenter sans texte dans le billet lui-même, uniquement via du texte intégré dans des images générées avec Images 2.0
L’accent est mis sur la production de résultats immédiatement exploitables, y compris pour des tâches visuelles complexes et un rendu de texte précis
Il s’agit du premier modèle d’image doté d’une capacité de réflexion (thinking), capable d’effectuer des recherches web, de générer plusieurs images simultanément et de vérifier ses propres sorties
Les performances de rendu des écritures non latines ont fortement progressé, notamment pour le japonais, le coréen, le chinois, l’hindi et le bengali, ce qui le rend pratique pour la création de designs multilingues
La prise en charge flexible des formats d’image de 3:1 à 1:3 permet de répondre immédiatement à divers usages comme les bannières, posters ou écrans mobiles
OpenAI présente cette évolution comme un passage d’un outil de rendu à un système de design stratégique, disponible dans ChatGPT, Codex et l’API

Une nouvelle ère pour la génération d’images

Les images y sont définies non comme un simple ornement, mais comme un langage à part entière, capable d’expliquer un mécanisme, d’installer une ambiance, de valider une idée ou de porter un message
Après le lancement de ChatGPT Images il y a un an, qui a montré que l’image IA pouvait être belle et utile, Images 2.0 se présente comme un modèle de nouvelle génération capable de traiter avec précision des tâches visuelles complexes
Meilleure fidélité aux consignes détaillées, progrès marqués dans le placement précis des objets, l’expression de leurs relations et le rendu de blocs de texte denses
La composition et le sens visuel sont suffisamment réussis pour que le résultat donne davantage l’impression d’un design intentionnel que d’une image générée par IA
Le modèle fonctionne correctement dans différentes langues et exploite une connaissance visuelle et du monde élargie pour générer des images plus intelligentes avec moins de prompts
Ce modèle combine l’intelligence des modèles de raisonnement d’OpenAI et une compréhension visuelle du monde, faisant évoluer la génération d’images du simple rendu vers un design stratégique, et l’outil vers un système visuel
Disponible dès aujourd’hui pour l’ensemble des utilisateurs de ChatGPT, Codex et de l’API

Images 2.0 offre une spécificité et une fidélité sans précédent dans la génération d’images
Il ne se contente pas d’imaginer des visuels plus sophistiqués : il les met aussi en œuvre efficacement, avec des points forts sur le respect des consignes, la conservation des détails demandés et le rendu des éléments fins
Il gère jusqu’à une résolution 2K des éléments que les anciens modèles d’image traitaient mal : petits textes, icônes, éléments d’interface, compositions denses et contraintes de style subtiles
Il produit non pas des images “à peu près similaires”, mais des résultats réellement prêts à l’emploi

Les modèles précédents étaient cohérents en anglais et dans les langues à alphabet latin, mais restaient limités pour les écritures non latines complexes ou denses
Images 2.0 améliore sa compréhension multilingue et progresse particulièrement dans le rendu de texte non latin, surtout pour le japonais, le coréen, le chinois, l’hindi et le bengali
Au-delà d’un rendu exact du texte non anglais, il peut produire des résultats linguistiquement naturels et fluides
Il ne s’agit pas seulement de traduire des étiquettes : il conserve aussi la cohérence visuelle dans des posters, supports explicatifs, diagrammes ou bandes dessinées où la langue fait partie du design
Les utilisateurs peuvent créer des visuels dans la langue qu’ils utilisent réellement, ce qui renforce sa portée globale

Images 2.0 améliore nettement sa fidélité à travers une grande variété de styles visuels
Il progresse dans la cohérence des textures, de l’éclairage, de la composition et des détails pour des langages visuels distinctifs comme la photo — y compris ses petites imperfections qui renforcent le réalisme —, le plan de film, le pixel art ou la bande dessinée
Il ne se contente pas d’approcher le style demandé : il produit des résultats qui le restituent fidèlement
Il est particulièrement utile pour le prototypage de jeux, les storyboards, les créations marketing et la production d’assets pour des médias ou genres spécifiques

Large prise en charge des ratios d’image, de 3:1 (horizontal) à 1:3 (vertical)
Il peut générer immédiatement des résultats adaptés au format requis, qu’il s’agisse de bannières larges, de slides de présentation, de posters, d’écrans mobiles, de marque-pages ou de visuels pour les réseaux sociaux
Il est possible de spécifier le ratio souhaité dans le prompt ou de régénérer à une nouvelle taille via des options prédéfinies

Images 2.0 intègre une compréhension du monde plus récente dans la génération d’images, avec une date de coupure des connaissances mise à jour à décembre 2025
Cela le rend avantageux pour des productions comme des supports explicatifs, cartes, graphiques pédagogiques ou résumés visuels, où la précision et la clarté comptent autant que l’esthétique
Grâce à son intelligence améliorée, il peut prendre en charge un flux de travail de bout en bout, de la synthèse d’informations à la rédaction de copy puis à la visualisation
- Il dispose d’un sens du design propre et structuré, attentif à l’espace blanc, à la lisibilité et au flux

En sélectionnant le modèle thinking ou pro, le modèle consacre davantage de temps à comprendre et exécuter la tâche de manière agentique
Il peut rechercher des informations pertinentes sur le web, transformer des documents fournis en supports visuels explicatifs clairs, et raisonner sur la structure d’une image avant sa génération
Dans ce mode, Images 2.0 fonctionne comme un partenaire de réflexion visuelle, réduisant fortement la charge de travail de l’utilisateur, du concept initial à l’asset final
En mode thinking, il peut générer simultanément plusieurs images différentes en une seule fois — une première pour la génération d’images de ChatGPT
- Cela permet des workflows comme une série de pages de BD, des pistes de redesign complet d’une maison, une famille de concepts d’affiches, ou des ensembles de visuels sociaux dans différents ratios et langues
Au lieu de prompter les images une par une puis de les assembler manuellement, l’utilisateur peut demander en une seule fois jusqu’à 10 résultats cohérents, avec continuité des personnages et des objets
- Chaque résultat se construit séquentiellement sur le précédent