Présentation de GPT Images 1.5
(openai.com)- La fonction de génération d’images de ChatGPT a été mise à niveau pour offrir des retouches plus précises et une génération plus rapide
- Le modèle GPT‑Image‑1.5 suit plus fidèlement les instructions textuelles et permet des modifications tout en préservant la ressemblance, l’éclairage et la composition des personnes
- La nouvelle interface latérale Images prend en charge les styles prédéfinis, les prompts tendance et la réutilisation de l’apparence
- Dans l’API aussi, les mêmes gains de performance s’accompagnent d’une baisse des coûts de 20 %, ce qui convient à la génération de logos de marque et d’images produit
- Cette mise à jour est déployée immédiatement pour tous les utilisateurs de ChatGPT et de l’API et améliore fortement l’utilité pratique et la qualité de la génération d’images
Présentation de GPT‑Image‑1.5
- Publication d’une nouvelle version de ChatGPT Images basée sur le modèle de génération d’images le plus puissant
- Il suit plus précisément les instructions textuelles et permet de modifier des images tout en conservant des détails comme la ressemblance du visage
- La vitesse de génération d’images est jusqu’à 4 fois plus rapide, ce qui améliore l’efficacité des itérations et de l’exploration d’idées
- Le modèle offre des transformations expressives, un rendu de texte dense et des résultats naturels
- Il prend en charge aussi bien de petites retouches que des reconstructions complètes, avec la possibilité de choisir des styles prédéfinis pour créer plus simplement
- Le déploiement progressif est en cours pour tous les utilisateurs de ChatGPT, et il est proposé dans l’API sous le nom GPT‑Image‑1.5
Des résultats alignés sur l’intention de l’utilisateur
- Le modèle ne modifie que les parties demandées tout en conservant de manière cohérente l’éclairage, la composition et la ressemblance de la personne
- Cela permet d’obtenir une forte correspondance dans des cas comme la retouche photo, la simulation de vêtements ou de coiffures, les filtres de style et les transformations conceptuelles
- ChatGPT peut ainsi servir de studio créatif portable, capable à la fois de retouches pratiques et de reconstructions artistiques
- Prise en charge de divers types d’édition (ajout, suppression, combinaison, mélange, etc.)
- Renforcement des fonctions de transformation créative pour ajouter des éléments comme du texte ou de la mise en page
- Meilleure compréhension des consignes par rapport à GPT Image 1.0, permettant des retouches plus fines
- Amélioration de la qualité du rendu de texte dense et de petite taille
Un nouvel espace de génération d’images
- Introduction dans ChatGPT d’une barre latérale dédiée à Images pour raccourcir l’exploration et la création d’images
- Comprend des filtres prédéfinis, des prompts tendance et une fonction de réutilisation de l’apparence
- Une seule image téléversée peut être réutilisée à plusieurs reprises, sans avoir à repasser par la galerie photo
- La vitesse de génération d’images est jusqu’à 4 fois supérieure, avec la possibilité de créer plusieurs images en même temps
- Des petites retouches aux reconstructions complètes, les résultats correspondent à la vision de l’utilisateur
Améliorations supplémentaires de la qualité
- Améliorations immédiatement utiles, comme la représentation de nombreux petits visages et le rendu naturel des résultats
- Exemple : reconstitution réaliste d’une scène de rue londonienne des années 1970, avec un meilleur focus sur les détails et la représentation des personnages
Améliorations et limites
- Une amélioration nette des performances a été confirmée dans divers cas par rapport à la version initiale
- Certains résultats restent toutefois imparfaits, et des aspects comme la gestion de plusieurs visages et le multilingue peuvent encore progresser
Disponibilité de GPT Image 1.5 via l’API
- La version API inclut les mêmes améliorations que ChatGPT Images
- Préservation de la cohérence des logos de marque et des visuels clés
- Adapté à la génération d’images pour le marketing et le e-commerce
- Les coûts d’entrée et de sortie baissent de 20 %, permettant de générer davantage d’images à budget identique
- Disponible à l’essai dans OpenAI Playground, la galerie et le guide de prompts
- Des entreprises comme Wix, Canva, Figma et Envato l’utilisent déjà
- Wix estime qu’il permet de prendre en charge des workflows de production rapides grâce à une génération d’images de haute qualité et très cohérente
Lancement et déploiement
- Le nouveau modèle ChatGPT Images est déployé immédiatement pour tous les utilisateurs de ChatGPT et de l’API dans le monde
- Il peut être utilisé sans sélection de modèle distincte, tandis que la version précédente est maintenue sous forme de GPT personnalisé
- OpenAI considère cette mise à jour comme une étape importante dans l’évolution des technologies de génération d’images
- D’autres améliorations sont prévues, notamment des retouches plus fines et une meilleure prise en charge du multilingue
1 commentaires
Avis Hacker News
Partage des résultats de gpt-image 1.5 sur le site GenAI Showdown
OpenAI reste très fort en compréhension des prompts, mais la fidélité des images était plutôt faible. Cette mise à jour améliore nettement ce point faible
Le modèle réussit surtout bien les retouches localisées (localized edit) sans dégrader l’esthétique générale. Son score est passé de 4/12 à 8/12, soit un doublement, et c’est le seul modèle à avoir réussi le « Giraffe prompt »
La pilotabilité (steerability) du modèle est aussi élevée, autour de 90 %
Parmi les nouveautés : une section d’échecs par modèle (outtakes), l’ajout des modèles REVE et Flux.2 Dev, ainsi qu’un système de score pondéré
Pour comparer les trois modèles (gpt-image-1, gpt-image-1.5, NB Pro), voir ce lien
Un billet de blog récapitulant des tests sur Nano Banana est en préparation
Après avoir testé le nouveau modèle d’image de ChatGPT, il s’est révélé bien moins bon que Nano Banana Pro, mais meilleur que Nano Banana de base
Le prix reste flou, mais gpt-image-1.5 semble environ 20 % moins cher que le modèle précédent
Un cas intéressant concerne la génération de grilles (grid generation). NBP perd la cohérence du prompt au-delà de 4x4, alors la tentative d’OpenAI en 6x6 est impressionnante
En attendant, on peut voir les résultats impressionnants de NB Pro sur ce blog
NB Pro a produit des résultats étonnants, comme assembler un puzzle jamais vu, estimer un relief 3D, ou transformer une fenêtre en miroir
Par exemple, en demandant deux personnes qui rament, le bateau était si petit qu’elles y entraient à peine
Il y avait aussi un bug très gênant : à chaque prompt de modification, le contexte précédent disparaissait
Pour obtenir un rendu naturel, j’ajoutais au début du prompt une formule comme « shaky amateur smartphone photo »
À noter que des réactions à ce sujet sont aussi visibles dans ce tweet
gpt-image-1 est bien meilleur que Nano Banana(Pro) pour la fonction previz-to-render
Nano Banana conserve tel quel les éléments de prévisualisation basse résolution, alors que gpt-image-1 comprend les poses, le blocking de la scène et effectue même l’upscaling
Exemples vidéo : 3D + Posing + Blocking, version avec réutilisation de décor, Gaussian splats, autres exemples
Il faudrait désormais des modèles offrant un meilleur contrôle du style, plus de vitesse, et un stylisme à partir d’images de référence
Adobe teste aussi des fonctions similaires, avec des démonstrations de Relighting, édition Image→3D, édition Gaussian, conversion 3D→Image
Je suis en train d’implémenter moi-même ces fonctions dans un outil desktop open source, développé en Rust
Si, en 2010, c’était un service où des opérateurs Photoshop assemblaient les images, cela aurait probablement provoqué une énorme controverse
Aujourd’hui, nous sommes dans une époque où l’IA fait s’effondrer les notions de droit d’auteur et d’auteur, et je me demande comment protéger les nouveaux contenus
GPT a déjà reproduit presque à l’identique une photo au style rare que j’avais prise autrefois
Dès qu’on publie, il faut accepter un certain niveau de mésusage. Il n’existe pas encore de précédent juridique clair pour les cas où un modèle surapprend l’original
J’ai essayé de générer des sprite maps et UV texture maps avec gpt-image-1.5, et l’ambiance Megaman Legends ressortait très bien
Exemple 1, Exemple 2
En revanche, sans vrai modèle 3D, difficile d’affirmer qu’il s’agit d’une UV map correcte. Les premières versions de Nano Banana ne pouvaient pas faire ce genre de tâche
On peut utiliser ce type de texture, mais il y aura beaucoup de distorsion
La bonne approche consiste à déplier le modèle et à utiliser une wireframe UV map en entrée
Le vrai modèle Crash est visible ici
Une expérience a été menée pour appliquer un thème sombre à un produit logiciel
Gemini/Nano se contentaient de griser certains panneaux, alors que GPT a réussi à thématiser élégamment toute l’application
Malgré cela, les détails de design ont toujours besoin de l’intervention d’un designer
Je me demandais d’où venait la teinte jaunâtre toujours présente dans les images de ChatGPT
Le pitch produit disant qu’on crée des images à partir de souvenirs qui n’existent pas me paraît étrange
De mon côté, je l’utilise surtout pour des tâches centrées sur le texte comme la programmation, les wikis ou les maths
Cela rappelle un peu l’époque où les filtres Snapchat étaient à la mode. Moi, je restais en mode normal
Au final, tout le monde pourrait s’abonner à une vie virtuelle, puis être renvoyé au réel quand le paiement par carte échoue
Comme le nouveau modèle semblait fonctionner dans l’API, j’ai mis à jour grail, mon SDK Golang,
mais j’obtiens une erreur serveur 500 à l’appel. gpt-image-1.5 n’apparaît pas non plus dans la liste des modèles
Voir cet exemple de code
Dans mon playground local (gpt-image-1-playground), j’ai modifié la gestion pour traiter les 404
Si on met un mauvais nom de modèle, le message indique que seules les valeurs gpt-image-1 et gpt-image-1-mini sont prises en charge
J’utilise toujours Midjourney. Les autres grands modèles manquent de créativité stylistique et se concentrent trop sur le photoréalisme
Pour créer non pas une image isolée mais une séquence avec du contexte, ces fonctions sont indispensables
Il y a depuis longtemps une tendance à juger la valeur de l’art uniquement à l’aune de la « qualité du rendu », en ignorant le sens de la création culturelle dans son contexte social