Présentation de GPT Images 1.5

(openai.com)

3 points par GN⁺ 2025-12-17 | 1 commentaires | Partager sur WhatsApp

La fonction de génération d’images de ChatGPT a été mise à niveau pour offrir des retouches plus précises et une génération plus rapide
Le modèle GPT‑Image‑1.5 suit plus fidèlement les instructions textuelles et permet des modifications tout en préservant la ressemblance, l’éclairage et la composition des personnes
La nouvelle interface latérale Images prend en charge les styles prédéfinis, les prompts tendance et la réutilisation de l’apparence
Dans l’API aussi, les mêmes gains de performance s’accompagnent d’une baisse des coûts de 20 %, ce qui convient à la génération de logos de marque et d’images produit
Cette mise à jour est déployée immédiatement pour tous les utilisateurs de ChatGPT et de l’API et améliore fortement l’utilité pratique et la qualité de la génération d’images

Présentation de GPT‑Image‑1.5

Publication d’une nouvelle version de ChatGPT Images basée sur le modèle de génération d’images le plus puissant
- Il suit plus précisément les instructions textuelles et permet de modifier des images tout en conservant des détails comme la ressemblance du visage
- La vitesse de génération d’images est jusqu’à 4 fois plus rapide, ce qui améliore l’efficacité des itérations et de l’exploration d’idées
Le modèle offre des transformations expressives, un rendu de texte dense et des résultats naturels
- Il prend en charge aussi bien de petites retouches que des reconstructions complètes, avec la possibilité de choisir des styles prédéfinis pour créer plus simplement
Le déploiement progressif est en cours pour tous les utilisateurs de ChatGPT, et il est proposé dans l’API sous le nom GPT‑Image‑1.5

Des résultats alignés sur l’intention de l’utilisateur

Le modèle ne modifie que les parties demandées tout en conservant de manière cohérente l’éclairage, la composition et la ressemblance de la personne
Cela permet d’obtenir une forte correspondance dans des cas comme la retouche photo, la simulation de vêtements ou de coiffures, les filtres de style et les transformations conceptuelles
ChatGPT peut ainsi servir de studio créatif portable, capable à la fois de retouches pratiques et de reconstructions artistiques
- Prise en charge de divers types d’édition (ajout, suppression, combinaison, mélange, etc.)
- Renforcement des fonctions de transformation créative pour ajouter des éléments comme du texte ou de la mise en page
- Meilleure compréhension des consignes par rapport à GPT Image 1.0, permettant des retouches plus fines
- Amélioration de la qualité du rendu de texte dense et de petite taille

Un nouvel espace de génération d’images

Introduction dans ChatGPT d’une barre latérale dédiée à Images pour raccourcir l’exploration et la création d’images
- Comprend des filtres prédéfinis, des prompts tendance et une fonction de réutilisation de l’apparence
- Une seule image téléversée peut être réutilisée à plusieurs reprises, sans avoir à repasser par la galerie photo
La vitesse de génération d’images est jusqu’à 4 fois supérieure, avec la possibilité de créer plusieurs images en même temps
Des petites retouches aux reconstructions complètes, les résultats correspondent à la vision de l’utilisateur

Améliorations supplémentaires de la qualité

Améliorations immédiatement utiles, comme la représentation de nombreux petits visages et le rendu naturel des résultats
Exemple : reconstitution réaliste d’une scène de rue londonienne des années 1970, avec un meilleur focus sur les détails et la représentation des personnages

Améliorations et limites

Une amélioration nette des performances a été confirmée dans divers cas par rapport à la version initiale
Certains résultats restent toutefois imparfaits, et des aspects comme la gestion de plusieurs visages et le multilingue peuvent encore progresser

Disponibilité de GPT Image 1.5 via l’API

La version API inclut les mêmes améliorations que ChatGPT Images
- Préservation de la cohérence des logos de marque et des visuels clés
- Adapté à la génération d’images pour le marketing et le e-commerce
Les coûts d’entrée et de sortie baissent de 20 %, permettant de générer davantage d’images à budget identique
Disponible à l’essai dans OpenAI Playground, la galerie et le guide de prompts
Des entreprises comme Wix, Canva, Figma et Envato l’utilisent déjà
- Wix estime qu’il permet de prendre en charge des workflows de production rapides grâce à une génération d’images de haute qualité et très cohérente

Lancement et déploiement

Le nouveau modèle ChatGPT Images est déployé immédiatement pour tous les utilisateurs de ChatGPT et de l’API dans le monde
Il peut être utilisé sans sélection de modèle distincte, tandis que la version précédente est maintenue sous forme de GPT personnalisé
OpenAI considère cette mise à jour comme une étape importante dans l’évolution des technologies de génération d’images
- D’autres améliorations sont prévues, notamment des retouches plus fines et une meilleure prise en charge du multilingue

1 commentaires

GN⁺ 2025-12-17

Avis Hacker News

Partage des résultats de gpt-image 1.5 sur le site GenAI Showdown
OpenAI reste très fort en compréhension des prompts, mais la fidélité des images était plutôt faible. Cette mise à jour améliore nettement ce point faible
Le modèle réussit surtout bien les retouches localisées (localized edit) sans dégrader l’esthétique générale. Son score est passé de 4/12 à 8/12, soit un doublement, et c’est le seul modèle à avoir réussi le « Giraffe prompt »
La pilotabilité (steerability) du modèle est aussi élevée, autour de 90 %
Parmi les nouveautés : une section d’échecs par modèle (outtakes), l’ajout des modèles REVE et Flux.2 Dev, ainsi qu’un système de score pondéré
Pour comparer les trois modèles (gpt-image-1, gpt-image-1.5, NB Pro), voir ce lien
Un billet de blog récapitulant des tests sur Nano Banana est en préparation
Après avoir testé le nouveau modèle d’image de ChatGPT, il s’est révélé bien moins bon que Nano Banana Pro, mais meilleur que Nano Banana de base
Le prix reste flou, mais gpt-image-1.5 semble environ 20 % moins cher que le modèle précédent
Un cas intéressant concerne la génération de grilles (grid generation). NBP perd la cohérence du prompt au-delà de 4x4, alors la tentative d’OpenAI en 6x6 est impressionnante
- Je compte faire tourner gpt-image-1.5 dans mon GenAI Showdown plus tard dans la journée
  En attendant, on peut voir les résultats impressionnants de NB Pro sur ce blog
  NB Pro a produit des résultats étonnants, comme assembler un puzzle jamais vu, estimer un relief 3D, ou transformer une fenêtre en miroir
- Après avoir testé GPT1.5 moi-même, j’ai trouvé la qualité d’image comparable à NBP, mais la cohérence du prompt et la compréhension du world model étaient inférieures
  Par exemple, en demandant deux personnes qui rament, le bateau était si petit qu’elles y entraient à peine
  Il y avait aussi un bug très gênant : à chaque prompt de modification, le contexte précédent disparaissait
  Pour obtenir un rendu naturel, j’ajoutais au début du prompt une formule comme « shaky amateur smartphone photo »
  À noter que des réactions à ce sujet sont aussi visibles dans ce tweet
- En tant que personne travaillant dans le cinéma depuis plus de 10 ans, j’ai un vrai besoin d’un outil de composition de scène cohérent
  gpt-image-1 est bien meilleur que Nano Banana(Pro) pour la fonction previz-to-render
  Nano Banana conserve tel quel les éléments de prévisualisation basse résolution, alors que gpt-image-1 comprend les poses, le blocking de la scène et effectue même l’upscaling
  Exemples vidéo : 3D + Posing + Blocking, version avec réutilisation de décor, Gaussian splats, autres exemples
  Il faudrait désormais des modèles offrant un meilleur contrôle du style, plus de vitesse, et un stylisme à partir d’images de référence
  Adobe teste aussi des fonctions similaires, avec des démonstrations de Relighting, édition Image→3D, édition Gaussian, conversion 3D→Image
  Je suis en train d’implémenter moi-même ces fonctions dans un outil desktop open source, développé en Rust
- J’ai reçu un retour disant que l’expérience était intéressante à suivre. Cela a permis d’améliorer la manière d’écrire les prompts et de fixer des attentes plus réalistes
Si, en 2010, c’était un service où des opérateurs Photoshop assemblaient les images, cela aurait probablement provoqué une énorme controverse
Aujourd’hui, nous sommes dans une époque où l’IA fait s’effondrer les notions de droit d’auteur et d’auteur, et je me demande comment protéger les nouveaux contenus
GPT a déjà reproduit presque à l’identique une photo au style rare que j’avais prise autrefois
- L’usage d’images de référence est une pratique standard dans l’art numérique. Mais avec l’IA, il y a un risque de reproduction trop proche
- Pour protéger du contenu, le seul moyen est l’air gap, c’est-à-dire ne rien mettre sur Internet
  Dès qu’on publie, il faut accepter un certain niveau de mésusage. Il n’existe pas encore de précédent juridique clair pour les cas où un modèle surapprend l’original
- Nous entrons probablement dans une ère post-copyright. Le droit finira par suivre
- Même si quelqu’un copie mon travail, est-ce forcément une mauvaise chose si cela permet à énormément de gens de le voir ?
J’ai essayé de générer des sprite maps et UV texture maps avec gpt-image-1.5, et l’ambiance Megaman Legends ressortait très bien
Exemple 1, Exemple 2
En revanche, sans vrai modèle 3D, difficile d’affirmer qu’il s’agit d’une UV map correcte. Les premières versions de Nano Banana ne pouvaient pas faire ce genre de tâche
- Pour être clair, ce n’est pas une vraie UV map. Par exemple, il manque le dos du modèle Crash
  On peut utiliser ce type de texture, mais il y aura beaucoup de distorsion
  La bonne approche consiste à déplier le modèle et à utiliser une wireframe UV map en entrée
  Le vrai modèle Crash est visible ici
Une expérience a été menée pour appliquer un thème sombre à un produit logiciel
Gemini/Nano se contentaient de griser certains panneaux, alors que GPT a réussi à thématiser élégamment toute l’application
Malgré cela, les détails de design ont toujours besoin de l’intervention d’un designer
Je me demandais d’où venait la teinte jaunâtre toujours présente dans les images de ChatGPT
- Ce phénomène est apparu à partir d’un certain moment. Il semble lié à l’impact de l’apprentissage par renforcement autour du boom du style Ghibli
- Mon hypothèse est qu’OpenAI a peut-être mal calculé la normalisation d’image. Le problème a disparu avec ce nouveau modèle
- Les Codec Avatars de Meta ont connu un souci comparable. Des données ont été collectées avec un équipement coûtant des millions de dollars, mais un échec de calibration caméra a produit une dominante verte
- Une autre hypothèse est que le célèbre « filtre Mexique » du cinéma se soit diffusé dans les données d’entraînement
- En ajustant le style selon les préférences humaines, un léger biais vers le jaune a émergé, et ce biais se serait accumulé à force d’éditions successives
Le pitch produit disant qu’on crée des images à partir de souvenirs qui n’existent pas me paraît étrange
- Je ressens la même chose, mais les études de marché montrent que la génération d’images est extrêmement populaire
  De mon côté, je l’utilise surtout pour des tâches centrées sur le texte comme la programmation, les wikis ou les maths
  Cela rappelle un peu l’époque où les filtres Snapchat étaient à la mode. Moi, je restais en mode normal
- Si ce prompt produisait des animaux en origami, ce serait presque encore plus dérangeant
- On verra peut-être un jour des acteurs vendre leur image pour produire de fausses photos
  Au final, tout le monde pourrait s’abonner à une vie virtuelle, puis être renvoyé au réel quand le paiement par carte échoue
Comme le nouveau modèle semblait fonctionner dans l’API, j’ai mis à jour grail, mon SDK Golang,
mais j’obtiens une erreur serveur 500 à l’appel. gpt-image-1.5 n’apparaît pas non plus dans la liste des modèles
Voir cet exemple de code
- En réalité, ce n’est pas encore utilisable dans l’API. Il n’apparaît pas non plus dans l’Image Playground lié par OpenAI
  Dans mon playground local (gpt-image-1-playground), j’ai modifié la gestion pour traiter les 404
  - J’ai essayé moi aussi et j’obtiens la même erreur 500.
    Si on met un mauvais nom de modèle, le message indique que seules les valeurs gpt-image-1 et gpt-image-1-mini sont prises en charge
  - Cela ressemble à un déploiement progressif, et rien n’est encore visible côté backend non plus
J’utilise toujours Midjourney. Les autres grands modèles manquent de créativité stylistique et se concentrent trop sur le photoréalisme
- Je ne connais pas bien les dernières mises à jour de Midjourney, mais les fonctions de cohérence de style et de conservation des personnages sont essentielles
  Pour créer non pas une image isolée mais une séquence avec du contexte, ces fonctions sont indispensables
- On peut voir cela comme la différence entre un modèle à opinions et un modèle guidé par les choix de l’utilisateur. Le premier a des atouts quand il fonctionne bien
- Certains ont réagi en disant que c’était impressionnant, et d’autres ont demandé s’il existait une galerie regroupant ces images
- Cette tendance est un problème culturel qui existait déjà avant la génération d’images
  Il y a depuis longtemps une tendance à juger la valeur de l’art uniquement à l’aune de la « qualité du rendu », en ignorant le sens de la création culturelle dans son contexte social

Présentation de GPT Images 1.5

Présentation de GPT‑Image‑1.5

Des résultats alignés sur l’intention de l’utilisateur

Un nouvel espace de génération d’images

Améliorations supplémentaires de la qualité

Améliorations et limites

Disponibilité de GPT Image 1.5 via l’API

Lancement et déploiement

À lire aussi

1 commentaires

Avis Hacker News