3 points par GN⁺ 2025-12-17 | 1 commentaires | Partager sur WhatsApp
  • La fonction de génération d’images de ChatGPT a été mise à niveau pour offrir des retouches plus précises et une génération plus rapide
  • Le modèle GPT‑Image‑1.5 suit plus fidèlement les instructions textuelles et permet des modifications tout en préservant la ressemblance, l’éclairage et la composition des personnes
  • La nouvelle interface latérale Images prend en charge les styles prédéfinis, les prompts tendance et la réutilisation de l’apparence
  • Dans l’API aussi, les mêmes gains de performance s’accompagnent d’une baisse des coûts de 20 %, ce qui convient à la génération de logos de marque et d’images produit
  • Cette mise à jour est déployée immédiatement pour tous les utilisateurs de ChatGPT et de l’API et améliore fortement l’utilité pratique et la qualité de la génération d’images

Présentation de GPT‑Image‑1.5

  • Publication d’une nouvelle version de ChatGPT Images basée sur le modèle de génération d’images le plus puissant
    • Il suit plus précisément les instructions textuelles et permet de modifier des images tout en conservant des détails comme la ressemblance du visage
    • La vitesse de génération d’images est jusqu’à 4 fois plus rapide, ce qui améliore l’efficacité des itérations et de l’exploration d’idées
  • Le modèle offre des transformations expressives, un rendu de texte dense et des résultats naturels
    • Il prend en charge aussi bien de petites retouches que des reconstructions complètes, avec la possibilité de choisir des styles prédéfinis pour créer plus simplement
  • Le déploiement progressif est en cours pour tous les utilisateurs de ChatGPT, et il est proposé dans l’API sous le nom GPT‑Image‑1.5

Des résultats alignés sur l’intention de l’utilisateur

  • Le modèle ne modifie que les parties demandées tout en conservant de manière cohérente l’éclairage, la composition et la ressemblance de la personne
  • Cela permet d’obtenir une forte correspondance dans des cas comme la retouche photo, la simulation de vêtements ou de coiffures, les filtres de style et les transformations conceptuelles
  • ChatGPT peut ainsi servir de studio créatif portable, capable à la fois de retouches pratiques et de reconstructions artistiques
    • Prise en charge de divers types d’édition (ajout, suppression, combinaison, mélange, etc.)
    • Renforcement des fonctions de transformation créative pour ajouter des éléments comme du texte ou de la mise en page
    • Meilleure compréhension des consignes par rapport à GPT Image 1.0, permettant des retouches plus fines
    • Amélioration de la qualité du rendu de texte dense et de petite taille

Un nouvel espace de génération d’images

  • Introduction dans ChatGPT d’une barre latérale dédiée à Images pour raccourcir l’exploration et la création d’images
    • Comprend des filtres prédéfinis, des prompts tendance et une fonction de réutilisation de l’apparence
    • Une seule image téléversée peut être réutilisée à plusieurs reprises, sans avoir à repasser par la galerie photo
  • La vitesse de génération d’images est jusqu’à 4 fois supérieure, avec la possibilité de créer plusieurs images en même temps
  • Des petites retouches aux reconstructions complètes, les résultats correspondent à la vision de l’utilisateur

Améliorations supplémentaires de la qualité

  • Améliorations immédiatement utiles, comme la représentation de nombreux petits visages et le rendu naturel des résultats
  • Exemple : reconstitution réaliste d’une scène de rue londonienne des années 1970, avec un meilleur focus sur les détails et la représentation des personnages

Améliorations et limites

  • Une amélioration nette des performances a été confirmée dans divers cas par rapport à la version initiale
  • Certains résultats restent toutefois imparfaits, et des aspects comme la gestion de plusieurs visages et le multilingue peuvent encore progresser

Disponibilité de GPT Image 1.5 via l’API

  • La version API inclut les mêmes améliorations que ChatGPT Images
    • Préservation de la cohérence des logos de marque et des visuels clés
    • Adapté à la génération d’images pour le marketing et le e-commerce
  • Les coûts d’entrée et de sortie baissent de 20 %, permettant de générer davantage d’images à budget identique
  • Disponible à l’essai dans OpenAI Playground, la galerie et le guide de prompts
  • Des entreprises comme Wix, Canva, Figma et Envato l’utilisent déjà
    • Wix estime qu’il permet de prendre en charge des workflows de production rapides grâce à une génération d’images de haute qualité et très cohérente

Lancement et déploiement

  • Le nouveau modèle ChatGPT Images est déployé immédiatement pour tous les utilisateurs de ChatGPT et de l’API dans le monde
  • Il peut être utilisé sans sélection de modèle distincte, tandis que la version précédente est maintenue sous forme de GPT personnalisé
  • OpenAI considère cette mise à jour comme une étape importante dans l’évolution des technologies de génération d’images
    • D’autres améliorations sont prévues, notamment des retouches plus fines et une meilleure prise en charge du multilingue

1 commentaires

 
GN⁺ 2025-12-17
Avis Hacker News
  • Partage des résultats de gpt-image 1.5 sur le site GenAI Showdown
    OpenAI reste très fort en compréhension des prompts, mais la fidélité des images était plutôt faible. Cette mise à jour améliore nettement ce point faible
    Le modèle réussit surtout bien les retouches localisées (localized edit) sans dégrader l’esthétique générale. Son score est passé de 4/12 à 8/12, soit un doublement, et c’est le seul modèle à avoir réussi le « Giraffe prompt »
    La pilotabilité (steerability) du modèle est aussi élevée, autour de 90 %
    Parmi les nouveautés : une section d’échecs par modèle (outtakes), l’ajout des modèles REVE et Flux.2 Dev, ainsi qu’un système de score pondéré
    Pour comparer les trois modèles (gpt-image-1, gpt-image-1.5, NB Pro), voir ce lien

  • Un billet de blog récapitulant des tests sur Nano Banana est en préparation
    Après avoir testé le nouveau modèle d’image de ChatGPT, il s’est révélé bien moins bon que Nano Banana Pro, mais meilleur que Nano Banana de base
    Le prix reste flou, mais gpt-image-1.5 semble environ 20 % moins cher que le modèle précédent
    Un cas intéressant concerne la génération de grilles (grid generation). NBP perd la cohérence du prompt au-delà de 4x4, alors la tentative d’OpenAI en 6x6 est impressionnante

    • Je compte faire tourner gpt-image-1.5 dans mon GenAI Showdown plus tard dans la journée
      En attendant, on peut voir les résultats impressionnants de NB Pro sur ce blog
      NB Pro a produit des résultats étonnants, comme assembler un puzzle jamais vu, estimer un relief 3D, ou transformer une fenêtre en miroir
    • Après avoir testé GPT1.5 moi-même, j’ai trouvé la qualité d’image comparable à NBP, mais la cohérence du prompt et la compréhension du world model étaient inférieures
      Par exemple, en demandant deux personnes qui rament, le bateau était si petit qu’elles y entraient à peine
      Il y avait aussi un bug très gênant : à chaque prompt de modification, le contexte précédent disparaissait
      Pour obtenir un rendu naturel, j’ajoutais au début du prompt une formule comme « shaky amateur smartphone photo »
      À noter que des réactions à ce sujet sont aussi visibles dans ce tweet
    • En tant que personne travaillant dans le cinéma depuis plus de 10 ans, j’ai un vrai besoin d’un outil de composition de scène cohérent
      gpt-image-1 est bien meilleur que Nano Banana(Pro) pour la fonction previz-to-render
      Nano Banana conserve tel quel les éléments de prévisualisation basse résolution, alors que gpt-image-1 comprend les poses, le blocking de la scène et effectue même l’upscaling
      Exemples vidéo : 3D + Posing + Blocking, version avec réutilisation de décor, Gaussian splats, autres exemples
      Il faudrait désormais des modèles offrant un meilleur contrôle du style, plus de vitesse, et un stylisme à partir d’images de référence
      Adobe teste aussi des fonctions similaires, avec des démonstrations de Relighting, édition Image→3D, édition Gaussian, conversion 3D→Image
      Je suis en train d’implémenter moi-même ces fonctions dans un outil desktop open source, développé en Rust
    • J’ai reçu un retour disant que l’expérience était intéressante à suivre. Cela a permis d’améliorer la manière d’écrire les prompts et de fixer des attentes plus réalistes
  • Si, en 2010, c’était un service où des opérateurs Photoshop assemblaient les images, cela aurait probablement provoqué une énorme controverse
    Aujourd’hui, nous sommes dans une époque où l’IA fait s’effondrer les notions de droit d’auteur et d’auteur, et je me demande comment protéger les nouveaux contenus
    GPT a déjà reproduit presque à l’identique une photo au style rare que j’avais prise autrefois

    • L’usage d’images de référence est une pratique standard dans l’art numérique. Mais avec l’IA, il y a un risque de reproduction trop proche
    • Pour protéger du contenu, le seul moyen est l’air gap, c’est-à-dire ne rien mettre sur Internet
      Dès qu’on publie, il faut accepter un certain niveau de mésusage. Il n’existe pas encore de précédent juridique clair pour les cas où un modèle surapprend l’original
    • Nous entrons probablement dans une ère post-copyright. Le droit finira par suivre
    • Même si quelqu’un copie mon travail, est-ce forcément une mauvaise chose si cela permet à énormément de gens de le voir ?
  • J’ai essayé de générer des sprite maps et UV texture maps avec gpt-image-1.5, et l’ambiance Megaman Legends ressortait très bien
    Exemple 1, Exemple 2
    En revanche, sans vrai modèle 3D, difficile d’affirmer qu’il s’agit d’une UV map correcte. Les premières versions de Nano Banana ne pouvaient pas faire ce genre de tâche

    • Pour être clair, ce n’est pas une vraie UV map. Par exemple, il manque le dos du modèle Crash
      On peut utiliser ce type de texture, mais il y aura beaucoup de distorsion
      La bonne approche consiste à déplier le modèle et à utiliser une wireframe UV map en entrée
      Le vrai modèle Crash est visible ici
  • Une expérience a été menée pour appliquer un thème sombre à un produit logiciel
    Gemini/Nano se contentaient de griser certains panneaux, alors que GPT a réussi à thématiser élégamment toute l’application
    Malgré cela, les détails de design ont toujours besoin de l’intervention d’un designer

  • Je me demandais d’où venait la teinte jaunâtre toujours présente dans les images de ChatGPT

    • Ce phénomène est apparu à partir d’un certain moment. Il semble lié à l’impact de l’apprentissage par renforcement autour du boom du style Ghibli
    • Mon hypothèse est qu’OpenAI a peut-être mal calculé la normalisation d’image. Le problème a disparu avec ce nouveau modèle
    • Les Codec Avatars de Meta ont connu un souci comparable. Des données ont été collectées avec un équipement coûtant des millions de dollars, mais un échec de calibration caméra a produit une dominante verte
    • Une autre hypothèse est que le célèbre « filtre Mexique » du cinéma se soit diffusé dans les données d’entraînement
    • En ajustant le style selon les préférences humaines, un léger biais vers le jaune a émergé, et ce biais se serait accumulé à force d’éditions successives
  • Le pitch produit disant qu’on crée des images à partir de souvenirs qui n’existent pas me paraît étrange

    • Je ressens la même chose, mais les études de marché montrent que la génération d’images est extrêmement populaire
      De mon côté, je l’utilise surtout pour des tâches centrées sur le texte comme la programmation, les wikis ou les maths
      Cela rappelle un peu l’époque où les filtres Snapchat étaient à la mode. Moi, je restais en mode normal
    • Si ce prompt produisait des animaux en origami, ce serait presque encore plus dérangeant
    • On verra peut-être un jour des acteurs vendre leur image pour produire de fausses photos
      Au final, tout le monde pourrait s’abonner à une vie virtuelle, puis être renvoyé au réel quand le paiement par carte échoue
  • Comme le nouveau modèle semblait fonctionner dans l’API, j’ai mis à jour grail, mon SDK Golang,
    mais j’obtiens une erreur serveur 500 à l’appel. gpt-image-1.5 n’apparaît pas non plus dans la liste des modèles
    Voir cet exemple de code

    • En réalité, ce n’est pas encore utilisable dans l’API. Il n’apparaît pas non plus dans l’Image Playground lié par OpenAI
      Dans mon playground local (gpt-image-1-playground), j’ai modifié la gestion pour traiter les 404
      • J’ai essayé moi aussi et j’obtiens la même erreur 500.
        Si on met un mauvais nom de modèle, le message indique que seules les valeurs gpt-image-1 et gpt-image-1-mini sont prises en charge
      • Cela ressemble à un déploiement progressif, et rien n’est encore visible côté backend non plus
  • J’utilise toujours Midjourney. Les autres grands modèles manquent de créativité stylistique et se concentrent trop sur le photoréalisme

    • Je ne connais pas bien les dernières mises à jour de Midjourney, mais les fonctions de cohérence de style et de conservation des personnages sont essentielles
      Pour créer non pas une image isolée mais une séquence avec du contexte, ces fonctions sont indispensables
    • On peut voir cela comme la différence entre un modèle à opinions et un modèle guidé par les choix de l’utilisateur. Le premier a des atouts quand il fonctionne bien
    • Certains ont réagi en disant que c’était impressionnant, et d’autres ont demandé s’il existait une galerie regroupant ces images
    • Cette tendance est un problème culturel qui existait déjà avant la génération d’images
      Il y a depuis longtemps une tendance à juger la valeur de l’art uniquement à l’aune de la « qualité du rendu », en ignorant le sens de la création culturelle dans son contexte social