OpenAI dévoile la génération d’images de 4o

(openai.com)

12 points par GN⁺ 2025-03-26 | 3 commentaires | Partager sur WhatsApp

OpenAI estime depuis longtemps que la génération d’images doit faire partie des fonctions essentielles d’un modèle de langage, et, dans cette optique, a intégré à GPT‑4o son générateur d’images le plus sophistiqué et le plus puissant
La génération d’images de GPT‑4o ne se limite pas à produire de belles images : elle crée des résultats réellement utiles et à forte valeur
Elle offre une grande précision et permet de générer des images de haute qualité au niveau photoréaliste
Les capacités multimodales étant intégrées par défaut, il est possible de créer des contenus visuels en mobilisant conjointement langage, image et contexte

Des fonctions de génération d’images utiles

Depuis les peintures rupestres jusqu’aux infographies modernes, l’être humain utilise les images visuelles pour transmettre, convaincre et analyser des informations
Les modèles génératifs existants peuvent produire des images fantastiques ou impressionnantes, mais ont eu plus de mal avec les visuels pratiques destinés à transmettre de l’information
La génération d’images de GPT‑4o excelle dans la création d’images précises sur le plan du sens, comme des logos ou des diagrammes
Elle inclut des fonctions avancées comme le rendu précis du texte, l’exploitation du contexte conversationnel de l’utilisateur et la génération à partir d’images importées
Ces capacités aident l’utilisateur à produire plus fidèlement l’image qu’il souhaite

Capacités de génération d’images améliorées

En apprenant la distribution conjointe des images et du texte en ligne, le modèle comprend les relations entre image et langage, ainsi qu’entre les images elles-mêmes
Après une phase d’ajustement post-entraînement, la fluidité visuelle s’améliore et permet de générer des images utiles et cohérentes

Fonction de rendu du texte

Une image peut contenir des milliers de mots, mais quelques mots placés au bon endroit peuvent en renforcer le sens
GPT‑4o peut combiner avec précision symboles et texte dans une image pour servir d’outil de communication visuelle

Génération d’images conversationnelle

GPT‑4o intègre nativement la génération d’images, ce qui permet de créer et de modifier des images au fil de la conversation
Exemple : lors de la conception d’un personnage de jeu, il est possible d’itérer tout en conservant de manière cohérente son apparence

Prise en compte fidèle des instructions

GPT‑4o suit avec précision les prompts détaillés
Là où d’autres systèmes gèrent environ 5 à 8 objets, GPT‑4o peut générer de façon cohérente jusqu’à 10 à 20 objets
Il maintient plus précisément les attributs des objets et les relations entre eux

Apprentissage fondé sur le contexte

Le modèle analyse les images importées par l’utilisateur et réinjecte leurs détails dans la génération d’images

Connexion aux connaissances du monde

GPT‑4o relie les connaissances entre texte et image, ce qui permet une génération d’images plus intelligente et plus efficace

Photoréalisme et diversité des styles

Entraîné sur une grande variété de styles d’image, il peut générer des images réalistes et effectuer des transformations de style

Limites du modèle

Ce n’est pas un modèle parfait
Des améliorations continues sont prévues après le lancement initial, sur la base des retours utilisateurs et des données

Efforts pour garantir la sécurité

Tout en encourageant des activités créatives utiles comme le développement de jeux, l’exploration historique ou l’éducation, OpenAI maintient des normes de sécurité strictes
Des politiques rigoureuses sont appliquées pour empêcher la génération d’images inappropriées
Transparence via C2PA et des outils de recherche internes
- Toutes les images générées par GPT‑4o incluent des métadonnées C2PA afin d’en clarifier l’origine
- Des outils de recherche internes permettent de vérifier la provenance d’une image à partir de ses caractéristiques techniques
Blocage des images inappropriées
- Les demandes de génération d’images enfreignant les règles, comme les images sexuelles impliquant des enfants ou les deepfakes, sont bloquées
- Des restrictions renforcées s’appliquent aux images comportant des personnes réelles
- Un système strict de blocage en amont est en place pour la nudité et les images violentes
Renforcement de la sécurité fondé sur le raisonnement
- OpenAI a entraîné un LLM basé sur le raisonnement qui fonctionne à partir de spécifications de politique rédigées par des humains
- Il a été utilisé pour identifier et résoudre les ambiguïtés des politiques, puis combiné à la technologie multimodale afin d’aligner à la fois le texte d’entrée et l’image produite sur les critères de ces politiques

Disponibilité

À partir d’aujourd’hui, cette fonctionnalité est proposée comme générateur d’images par défaut aux utilisateurs Plus, Pro, Team et Free
La prise en charge d’Enterprise et d’Edu est prévue prochainement
Elle est également disponible dans Sora, tandis que l’ancien modèle DALL·E reste accessible via un GPT distinct
La fonctionnalité de génération d’images via l’API sera mise à disposition des développeurs dans les prochaines semaines
Les utilisateurs peuvent générer des images à partir d’une simple description, tout en spécifiant aussi le ratio, la couleur (code hex), ou la transparence de l’arrière-plan
En raison de la génération d’images haute fidélité, le rendu peut prendre jusqu’à une minute

3 commentaires

j2sus91 2025-03-26

On dirait que ce n’est pas encore visible sur l’offre free ; c’est bien ouvert seulement aux offres Plus, Pro et Team ?

laeyoung 2025-03-26

Dans Pro, si on clique sur les ... sous la fenêtre de chat, il y a bien « Créer une image (mis à jour) », donc j’imagine que c’est ça.
En revanche, « Best of # » n’apparaît pas, donc je ne sais pas si c’est activé ou non, c’est un peu confus.

GN⁺ 2025-03-26

Commentaires sur Hacker News

La nouvelle méthode de génération d’images utilise des tokens et effectue le raisonnement dans l’espace des pixels au lieu de la diffusion
- Par exemple, on peut lui faire dessiner un bloc-notes avec une grille de morpion vide, lui faire jouer le premier coup, puis continuer en jouant à tour de rôle avec l’utilisateur
- Il est aussi possible de changer le style du dessin ou d’effectuer des transformations qui préservent l’information, comme « transformer le jour en nuit » ou « mettre un chapeau »
- La résolution du modèle est limitée, mais les progrès dans ce domaine pourraient permettre de concevoir une application étape par étape sous forme d’images puis d’en écrire le code
- Le modèle peut continuer à « raisonner » à partir d’images externes, ce qui permet d’améliorer le résultat même si la génération d’origine n’était pas bonne
- Si le modèle devient plus rapide, on peut imaginer une véritable UI générative qui produirait l’image suivante d’une app en fonction des événements du LLM
- Les modèles de diffusion peuvent aussi accomplir ce type de tâche, et plus rapidement
Présentation de 4o Image Generation : le générateur d’images le plus avancé
- Google Gemini 2.5 : le modèle d’IA le plus intelligent
- Présentation de Gemini 2.0 : le modèle d’IA le plus capable
- Espérons que cette tendance disparaisse et qu’Apple utilise une formule efficace que les autres entreprises copieront avec une nouvelle terminologie
Quelqu’un se demande pourquoi aucun benchmark avec o1 n’est ajouté
Le live stream d’OpenAI sur GPT-4o Image Generation est lent, avec environ 30 secondes par image
- Sam Altman explique que « c’est lent, mais les images générées en valent la peine »
- Au lieu d’une approche par diffusion, le système génère et décode des tokens d’image, comme le DALL-E d’origine
- Gemini de Google peut générer et éditer des images en quelques secondes
- Il n’y a pas encore d’API et, à cause de cette lenteur, on s’attend à un coût supérieur aux 0,03 $+ par image de la concurrence
Après essai, quelqu’un a pu générer d’un seul coup le carton d’invitation d’anniversaire de sa fille
- Les éléments et le style souhaités ont été respectés avec précision
- Quand il a demandé d’ajouter des détails comme la date et le lieu, le résultat est resté bon
- Les modèles précédents n’arrivaient même pas à la moitié de ce niveau
C’est appréciable que le rendu ne soit pas dans un style CG/cartoon trop saturé
Quelqu’un se demande s’il existe un moyen de vérifier si un prompt donné a été traité par 4o ou par DALL-E
- À l’heure actuelle, il semble que les prompts soient encore traités par le second
- Le plan à long terme est de migrer entièrement vers 4o et de déplacer DALL-E dans un onglet séparé
Le test du verre de vin échoue toujours
Quelqu’un se demande à quel point les nombreuses images marquées « Best of 8 » sont réellement sélectionnées
- Sur trois images gratuites, deux étaient impressionnantes et une a complètement raté
Il existe des exemples d’édition itérative avec le nouveau modèle
- C’est bien meilleur que les modèles précédents, mais il continue à générer des corps avec trop de doigts ou trop de bras