12 points par GN⁺ 2025-03-26 | 3 commentaires | Partager sur WhatsApp
  • OpenAI estime depuis longtemps que la génération d’images doit faire partie des fonctions essentielles d’un modèle de langage, et, dans cette optique, a intégré à GPT‑4o son générateur d’images le plus sophistiqué et le plus puissant
  • La génération d’images de GPT‑4o ne se limite pas à produire de belles images : elle crée des résultats réellement utiles et à forte valeur
  • Elle offre une grande précision et permet de générer des images de haute qualité au niveau photoréaliste
  • Les capacités multimodales étant intégrées par défaut, il est possible de créer des contenus visuels en mobilisant conjointement langage, image et contexte

Des fonctions de génération d’images utiles

  • Depuis les peintures rupestres jusqu’aux infographies modernes, l’être humain utilise les images visuelles pour transmettre, convaincre et analyser des informations
  • Les modèles génératifs existants peuvent produire des images fantastiques ou impressionnantes, mais ont eu plus de mal avec les visuels pratiques destinés à transmettre de l’information
  • La génération d’images de GPT‑4o excelle dans la création d’images précises sur le plan du sens, comme des logos ou des diagrammes
  • Elle inclut des fonctions avancées comme le rendu précis du texte, l’exploitation du contexte conversationnel de l’utilisateur et la génération à partir d’images importées
  • Ces capacités aident l’utilisateur à produire plus fidèlement l’image qu’il souhaite

Capacités de génération d’images améliorées

  • En apprenant la distribution conjointe des images et du texte en ligne, le modèle comprend les relations entre image et langage, ainsi qu’entre les images elles-mêmes
  • Après une phase d’ajustement post-entraînement, la fluidité visuelle s’améliore et permet de générer des images utiles et cohérentes

Fonction de rendu du texte

  • Une image peut contenir des milliers de mots, mais quelques mots placés au bon endroit peuvent en renforcer le sens
  • GPT‑4o peut combiner avec précision symboles et texte dans une image pour servir d’outil de communication visuelle

Génération d’images conversationnelle

  • GPT‑4o intègre nativement la génération d’images, ce qui permet de créer et de modifier des images au fil de la conversation
  • Exemple : lors de la conception d’un personnage de jeu, il est possible d’itérer tout en conservant de manière cohérente son apparence

Prise en compte fidèle des instructions

  • GPT‑4o suit avec précision les prompts détaillés
  • Là où d’autres systèmes gèrent environ 5 à 8 objets, GPT‑4o peut générer de façon cohérente jusqu’à 10 à 20 objets
  • Il maintient plus précisément les attributs des objets et les relations entre eux

Apprentissage fondé sur le contexte

  • Le modèle analyse les images importées par l’utilisateur et réinjecte leurs détails dans la génération d’images

Connexion aux connaissances du monde

  • GPT‑4o relie les connaissances entre texte et image, ce qui permet une génération d’images plus intelligente et plus efficace

Photoréalisme et diversité des styles

  • Entraîné sur une grande variété de styles d’image, il peut générer des images réalistes et effectuer des transformations de style

Limites du modèle

  • Ce n’est pas un modèle parfait
  • Des améliorations continues sont prévues après le lancement initial, sur la base des retours utilisateurs et des données

Efforts pour garantir la sécurité

  • Tout en encourageant des activités créatives utiles comme le développement de jeux, l’exploration historique ou l’éducation, OpenAI maintient des normes de sécurité strictes
  • Des politiques rigoureuses sont appliquées pour empêcher la génération d’images inappropriées
  • Transparence via C2PA et des outils de recherche internes

    • Toutes les images générées par GPT‑4o incluent des métadonnées C2PA afin d’en clarifier l’origine
    • Des outils de recherche internes permettent de vérifier la provenance d’une image à partir de ses caractéristiques techniques
  • Blocage des images inappropriées

    • Les demandes de génération d’images enfreignant les règles, comme les images sexuelles impliquant des enfants ou les deepfakes, sont bloquées
    • Des restrictions renforcées s’appliquent aux images comportant des personnes réelles
    • Un système strict de blocage en amont est en place pour la nudité et les images violentes
  • Renforcement de la sécurité fondé sur le raisonnement

    • OpenAI a entraîné un LLM basé sur le raisonnement qui fonctionne à partir de spécifications de politique rédigées par des humains
    • Il a été utilisé pour identifier et résoudre les ambiguïtés des politiques, puis combiné à la technologie multimodale afin d’aligner à la fois le texte d’entrée et l’image produite sur les critères de ces politiques

Disponibilité

  • À partir d’aujourd’hui, cette fonctionnalité est proposée comme générateur d’images par défaut aux utilisateurs Plus, Pro, Team et Free
  • La prise en charge d’Enterprise et d’Edu est prévue prochainement
  • Elle est également disponible dans Sora, tandis que l’ancien modèle DALL·E reste accessible via un GPT distinct
  • La fonctionnalité de génération d’images via l’API sera mise à disposition des développeurs dans les prochaines semaines
  • Les utilisateurs peuvent générer des images à partir d’une simple description, tout en spécifiant aussi le ratio, la couleur (code hex), ou la transparence de l’arrière-plan
  • En raison de la génération d’images haute fidélité, le rendu peut prendre jusqu’à une minute

3 commentaires

 
j2sus91 2025-03-26

On dirait que ce n’est pas encore visible sur l’offre free ; c’est bien ouvert seulement aux offres Plus, Pro et Team ?

 
laeyoung 2025-03-26

Dans Pro, si on clique sur les ... sous la fenêtre de chat, il y a bien « Créer une image (mis à jour) », donc j’imagine que c’est ça.
En revanche, « Best of # » n’apparaît pas, donc je ne sais pas si c’est activé ou non, c’est un peu confus.

 
GN⁺ 2025-03-26
Commentaires sur Hacker News
  • La nouvelle méthode de génération d’images utilise des tokens et effectue le raisonnement dans l’espace des pixels au lieu de la diffusion

    • Par exemple, on peut lui faire dessiner un bloc-notes avec une grille de morpion vide, lui faire jouer le premier coup, puis continuer en jouant à tour de rôle avec l’utilisateur
    • Il est aussi possible de changer le style du dessin ou d’effectuer des transformations qui préservent l’information, comme « transformer le jour en nuit » ou « mettre un chapeau »
    • La résolution du modèle est limitée, mais les progrès dans ce domaine pourraient permettre de concevoir une application étape par étape sous forme d’images puis d’en écrire le code
    • Le modèle peut continuer à « raisonner » à partir d’images externes, ce qui permet d’améliorer le résultat même si la génération d’origine n’était pas bonne
    • Si le modèle devient plus rapide, on peut imaginer une véritable UI générative qui produirait l’image suivante d’une app en fonction des événements du LLM
    • Les modèles de diffusion peuvent aussi accomplir ce type de tâche, et plus rapidement
  • Présentation de 4o Image Generation : le générateur d’images le plus avancé

    • Google Gemini 2.5 : le modèle d’IA le plus intelligent
    • Présentation de Gemini 2.0 : le modèle d’IA le plus capable
    • Espérons que cette tendance disparaisse et qu’Apple utilise une formule efficace que les autres entreprises copieront avec une nouvelle terminologie
  • Quelqu’un se demande pourquoi aucun benchmark avec o1 n’est ajouté

  • Le live stream d’OpenAI sur GPT-4o Image Generation est lent, avec environ 30 secondes par image

    • Sam Altman explique que « c’est lent, mais les images générées en valent la peine »
    • Au lieu d’une approche par diffusion, le système génère et décode des tokens d’image, comme le DALL-E d’origine
    • Gemini de Google peut générer et éditer des images en quelques secondes
    • Il n’y a pas encore d’API et, à cause de cette lenteur, on s’attend à un coût supérieur aux 0,03 $+ par image de la concurrence
  • Après essai, quelqu’un a pu générer d’un seul coup le carton d’invitation d’anniversaire de sa fille

    • Les éléments et le style souhaités ont été respectés avec précision
    • Quand il a demandé d’ajouter des détails comme la date et le lieu, le résultat est resté bon
    • Les modèles précédents n’arrivaient même pas à la moitié de ce niveau
  • C’est appréciable que le rendu ne soit pas dans un style CG/cartoon trop saturé

  • Quelqu’un se demande s’il existe un moyen de vérifier si un prompt donné a été traité par 4o ou par DALL-E

    • À l’heure actuelle, il semble que les prompts soient encore traités par le second
    • Le plan à long terme est de migrer entièrement vers 4o et de déplacer DALL-E dans un onglet séparé
  • Le test du verre de vin échoue toujours

  • Quelqu’un se demande à quel point les nombreuses images marquées « Best of 8 » sont réellement sélectionnées

    • Sur trois images gratuites, deux étaient impressionnantes et une a complètement raté
  • Il existe des exemples d’édition itérative avec le nouveau modèle

    • C’est bien meilleur que les modèles précédents, mais il continue à générer des corps avec trop de doigts ou trop de bras