- OpenAI estime depuis longtemps que la génération d’images doit faire partie des fonctions essentielles d’un modèle de langage, et, dans cette optique, a intégré à GPT‑4o son générateur d’images le plus sophistiqué et le plus puissant
- La génération d’images de GPT‑4o ne se limite pas à produire de belles images : elle crée des résultats réellement utiles et à forte valeur
- Elle offre une grande précision et permet de générer des images de haute qualité au niveau photoréaliste
- Les capacités multimodales étant intégrées par défaut, il est possible de créer des contenus visuels en mobilisant conjointement langage, image et contexte
Des fonctions de génération d’images utiles
- Depuis les peintures rupestres jusqu’aux infographies modernes, l’être humain utilise les images visuelles pour transmettre, convaincre et analyser des informations
- Les modèles génératifs existants peuvent produire des images fantastiques ou impressionnantes, mais ont eu plus de mal avec les visuels pratiques destinés à transmettre de l’information
- La génération d’images de GPT‑4o excelle dans la création d’images précises sur le plan du sens, comme des logos ou des diagrammes
- Elle inclut des fonctions avancées comme le rendu précis du texte, l’exploitation du contexte conversationnel de l’utilisateur et la génération à partir d’images importées
- Ces capacités aident l’utilisateur à produire plus fidèlement l’image qu’il souhaite
Capacités de génération d’images améliorées
- En apprenant la distribution conjointe des images et du texte en ligne, le modèle comprend les relations entre image et langage, ainsi qu’entre les images elles-mêmes
- Après une phase d’ajustement post-entraînement, la fluidité visuelle s’améliore et permet de générer des images utiles et cohérentes
Fonction de rendu du texte
- Une image peut contenir des milliers de mots, mais quelques mots placés au bon endroit peuvent en renforcer le sens
- GPT‑4o peut combiner avec précision symboles et texte dans une image pour servir d’outil de communication visuelle
Génération d’images conversationnelle
- GPT‑4o intègre nativement la génération d’images, ce qui permet de créer et de modifier des images au fil de la conversation
- Exemple : lors de la conception d’un personnage de jeu, il est possible d’itérer tout en conservant de manière cohérente son apparence
Prise en compte fidèle des instructions
- GPT‑4o suit avec précision les prompts détaillés
- Là où d’autres systèmes gèrent environ 5 à 8 objets, GPT‑4o peut générer de façon cohérente jusqu’à 10 à 20 objets
- Il maintient plus précisément les attributs des objets et les relations entre eux
Apprentissage fondé sur le contexte
- Le modèle analyse les images importées par l’utilisateur et réinjecte leurs détails dans la génération d’images
Connexion aux connaissances du monde
- GPT‑4o relie les connaissances entre texte et image, ce qui permet une génération d’images plus intelligente et plus efficace
Photoréalisme et diversité des styles
- Entraîné sur une grande variété de styles d’image, il peut générer des images réalistes et effectuer des transformations de style
Limites du modèle
- Ce n’est pas un modèle parfait
- Des améliorations continues sont prévues après le lancement initial, sur la base des retours utilisateurs et des données
Efforts pour garantir la sécurité
- Tout en encourageant des activités créatives utiles comme le développement de jeux, l’exploration historique ou l’éducation, OpenAI maintient des normes de sécurité strictes
- Des politiques rigoureuses sont appliquées pour empêcher la génération d’images inappropriées
-
Transparence via C2PA et des outils de recherche internes
- Toutes les images générées par GPT‑4o incluent des métadonnées C2PA afin d’en clarifier l’origine
- Des outils de recherche internes permettent de vérifier la provenance d’une image à partir de ses caractéristiques techniques
-
Blocage des images inappropriées
- Les demandes de génération d’images enfreignant les règles, comme les images sexuelles impliquant des enfants ou les deepfakes, sont bloquées
- Des restrictions renforcées s’appliquent aux images comportant des personnes réelles
- Un système strict de blocage en amont est en place pour la nudité et les images violentes
-
Renforcement de la sécurité fondé sur le raisonnement
- OpenAI a entraîné un LLM basé sur le raisonnement qui fonctionne à partir de spécifications de politique rédigées par des humains
- Il a été utilisé pour identifier et résoudre les ambiguïtés des politiques, puis combiné à la technologie multimodale afin d’aligner à la fois le texte d’entrée et l’image produite sur les critères de ces politiques
Disponibilité
- À partir d’aujourd’hui, cette fonctionnalité est proposée comme générateur d’images par défaut aux utilisateurs Plus, Pro, Team et Free
- La prise en charge d’Enterprise et d’Edu est prévue prochainement
- Elle est également disponible dans Sora, tandis que l’ancien modèle DALL·E reste accessible via un GPT distinct
- La fonctionnalité de génération d’images via l’API sera mise à disposition des développeurs dans les prochaines semaines
- Les utilisateurs peuvent générer des images à partir d’une simple description, tout en spécifiant aussi le ratio, la couleur (code hex), ou la transparence de l’arrière-plan
- En raison de la génération d’images haute fidélité, le rendu peut prendre jusqu’à une minute
3 commentaires
On dirait que ce n’est pas encore visible sur l’offre free ; c’est bien ouvert seulement aux offres Plus, Pro et Team ?
Dans Pro, si on clique sur les ... sous la fenêtre de chat, il y a bien « Créer une image (mis à jour) », donc j’imagine que c’est ça.
En revanche, « Best of # » n’apparaît pas, donc je ne sais pas si c’est activé ou non, c’est un peu confus.
Commentaires sur Hacker News
La nouvelle méthode de génération d’images utilise des tokens et effectue le raisonnement dans l’espace des pixels au lieu de la diffusion
Présentation de 4o Image Generation : le générateur d’images le plus avancé
Quelqu’un se demande pourquoi aucun benchmark avec o1 n’est ajouté
Le live stream d’OpenAI sur GPT-4o Image Generation est lent, avec environ 30 secondes par image
Après essai, quelqu’un a pu générer d’un seul coup le carton d’invitation d’anniversaire de sa fille
C’est appréciable que le rendu ne soit pas dans un style CG/cartoon trop saturé
Quelqu’un se demande s’il existe un moyen de vérifier si un prompt donné a été traité par 4o ou par DALL-E
Le test du verre de vin échoue toujours
Quelqu’un se demande à quel point les nombreuses images marquées « Best of 8 » sont réellement sélectionnées
Il existe des exemples d’édition itérative avec le nouveau modèle