Gemini 2.5 Flash Image
(developers.googleblog.com)- Google a dévoilé Gemini 2.5 Flash Image, un modèle de génération et d’édition d’images de pointe
- Les utilisateurs peuvent fusionner plusieurs images en une seule, maintenir la cohérence d’un personnage et transformer une image cible à partir d’instructions en langage naturel
- Ce modèle est proposé aux développeurs et aux entreprises via Google AI Studio, l’API Gemini et Vertex AI
- Divers exemples d’usage sont disponibles, notamment pour la composition d’images, la génération à partir de modèles et l’édition programmable
- Les images créées par l’IA intègrent le tatouage numérique invisible SynthID, permettant d’identifier qu’il s’agit d’images générées ou éditées
Présentation de Gemini 2.5 Flash Image
Google a présenté Gemini 2.5 Flash Image (nom de code nano-banana). Ce modèle prend en charge la génération et l’édition d’images, la composition multi-images, le maintien de la cohérence des personnages et la modification complète d’images à partir d’instructions en langage naturel. Il exploite aussi les connaissances du monde de Gemini pour offrir une qualité de génération et d’édition plus approfondie que les modèles de génération d’images existants
La version précédente de Gemini 2.0 Flash se distinguait par une faible latence, un bon rapport coût-efficacité et une grande facilité d’utilisation, mais, en réponse aux demandes de la communauté, les capacités de qualité supérieure et de contrôle créatif ont été renforcées
Le modèle est disponible immédiatement en préversion via l’API Gemini, Google AI Studio et Vertex AI. Le tarif est de 30,00 $ par million de tokens de sortie, avec une facturation de 1 290 tokens (0,039 $) par image. Les autres modalités d’entrée et de sortie suivent également la grille tarifaire de Gemini 2.5 Flash
Cas d’usage concrets
Le build mode de Google AI Studio a été repensé, ce qui permet de tester et développer facilement les fonctionnalités de Gemini 2.5 Flash Image dans des applications IA personnalisées. Il est possible de créer une application directement à partir d’un prompt, ou de remixer librement des modèles prédéfinis. Une fois l’application terminée, elle peut être déployée directement depuis AI Studio ou son code peut être enregistré sur GitHub
Exemple de prompt : « Crée-moi une application de retouche d’image dans laquelle l’utilisateur téléverse une image et applique différents filtres »
Maintien de la cohérence des personnages
L’un des grands défis de la génération d’images, la cohérence visuelle d’un personnage ou d’un objet, peut être géré efficacement. Il devient possible de placer naturellement une même personne dans plusieurs environnements, de produire un même produit sous différents angles et configurations, ou de générer de manière cohérente des assets liés à une marque
Google AI Studio propose une application modèle personnalisée permettant de démontrer cette cohérence des personnages, avec la possibilité de personnaliser ensuite le code soi-même
Le modèle se distingue aussi dans la génération d’images à partir de modèles visuels. Il permet de produire en masse, à partir d’un seul modèle de design, des fiches immobilières, des badges employés ou des maquettes de produits de catalogue
Édition d’images à partir de prompts
À partir d’instructions en langage naturel uniquement, le modèle prend en charge des transformations partielles et des retouches locales précises. Par exemple, il est possible avec un seul prompt de flouter l’arrière-plan, retirer une tache sur un vêtement, supprimer une personne d’une photo, changer la pose d’un sujet ou coloriser une photo en noir et blanc
Pour expérimenter directement ces fonctions, une application modèle de retouche photo basée sur l’interface utilisateur et les prompts est également fournie
Connaissances du monde natives
Les modèles de génération d’images existants savent souvent produire de belles images, mais manquent de compréhension sémantique et profonde du monde réel. Gemini 2.5 Flash Image s’appuie sur des connaissances du monde qui mettent en avant ses points forts dans de nouveaux usages
Par exemple, il peut lire et comprendre un diagramme dessiné à la main, répondre à des questions ancrées dans le réel ou exécuter des instructions d’édition complexes. Ces capacités peuvent être testées directement dans une application de tuteur pédagogique interactif pour AI Studio
Composition multi-images
Le modèle peut interpréter et fusionner plusieurs images d’entrée pour créer une image composite. Il peut placer un objet dans une autre scène, redonner un style à une pièce avec de nouvelles couleurs et textures, ou fusionner plusieurs images, le tout en un seul prompt
Pour cela, AI Studio propose aussi une application modèle permettant de glisser une image produit pour la composer rapidement dans une nouvelle scène
Guide de démarrage pour les développeurs
Les développeurs peuvent commencer immédiatement avec la documentation officielle, le service étant actuellement proposé en préversion. Toutes les applications de démonstration présentées dans l’article ont été créées dans Google AI Studio avec vibe code, et peuvent être remixées et personnalisées par simple prompt
Grâce à une collaboration avec OpenRouter.ai, plus de 3 millions de développeurs dans le monde peuvent y accéder, et il s’agit actuellement du premier modèle prenant en charge la génération d’images sur OpenRouter. En partenariat avec fal.ai, son usage devrait également s’étendre à une communauté plus large de développeurs de médias génératifs
Toutes les images générées ou éditées avec Gemini 2.5 Flash Image incluent un tatouage numérique invisible SynthID, permettant de les identifier comme des images générées par l’IA
Exemple de code Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Le code ci-dessus montre un exemple de génération d’un résultat dans Gemini 2.5 Flash Image en fournissant à la fois un prompt et une image
Retours des développeurs et feuille de route
Google indique vouloir continuer à se concentrer sur le rendu de textes longs, l’amélioration de la cohérence des personnages, ainsi que le réalisme et le niveau de détail. Les retours sont recueillis sur le forum des développeurs et sur X (anciennement Twitter), et l’entreprise dit attendre avec intérêt les différents usages que les développeurs en feront
1 commentaires
Avis sur Hacker News
J’ai l’impression que c’est le moment « GPT-4 » pour les modèles d’édition d’images
Gemini 2.5 Flash, surnommé Nano banana, est incroyablement performant
Il a gagné pas moins de 171 points Elo sur lmarena
En cherchant nano banana sur Twitter, on tombe sur des résultats impressionnants
Voir par exemple ce tweet
Je l’ai testé moi-même pendant quelques semaines
On obtient parfois des résultats vraiment impressionnants, mais pour avoir l’image voulue, il faut souvent réessayer plusieurs fois avec le prompt
Ce n’est pas universel, mais c’est clairement une avancée énorme et le meilleur niveau disponible aujourd’hui
Dans le troisième exemple, les mains sont rendues de façon étrange
On dirait que le modèle n’arrive pas à décider dans quel sens les placer
Cela dit, le problème ne vient pas de Gemini, il était déjà présent dans l’image d’origine
On dirait que toutes les combinaisons autour de « nano banana » ont été enregistrées comme domaines avec leur propre UI
Je me demande si des intermédiaires ne cherchent pas à exploiter le nom d’un modèle populaire pour arbitrer des crédits
Avant l’arrivée de l’IA, Google était souvent critiqué pour utiliser des ingénieurs de classe mondiale uniquement pour vendre de la publicité
Mais avec l’ère de l’IA, ces talents peuvent désormais être utilisés pour faire du placement produit
On a vraiment parcouru du chemin
Un autre point décevant, c’est que la doudoune rose modifiée diffère légèrement de l’image de référence
Si on utilise ce modèle pour la promotion d’un produit ou si l’on est sensible aux détails, cela peut poser problème
J’ai mis à jour mon site de comparaison d’images GenAI
Ce site se concentre strictement sur le respect des prompts en texte-vers-image
Le nouveau modèle Google Gemini 2.5 Flash (nano-banana) y est aussi intégré
Le modèle réussit correctement 8 prompts sur 12 et s’approche presque des meilleurs modèles, Imagen et gpt-image-1
C’est une grosse mise à niveau par rapport à l’ancien Gemini Flash 2.0
gpt-image-1, numéro 1, ne le devance que de peu sur le labyrinthe et l’étoile à 9 branches
Le plus surprenant, c’est que gpt-image-1 est resté en tête pendant presque 6 mois, ce qui est presque une éternité dans ce domaine
En revanche, gpt-image-1 est quasiment inutilisable comme « éditeur », car il modifie l’image dans son ensemble au lieu de faire de l’inpainting comme Kontext, Qwen ou Nano-Banana
Lien de comparaison entre OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana, etc.
J’ai l’impression qu’il faudrait un benchmark séparé pour l’édition de phrases
Je ne comprends pas vraiment pourquoi Hunyuan, OpenAI 4o et Gwen sont considérés comme ayant réussi le test de la pieuvre
Ils ne couvrent pas bien « chaque tentacule »
Midjourney a même mis 9 chaussettes marionnettes sur 8 bras
C’est intéressant de voir à quel point les résultats d’Imagen 4 et de Gemini 2.5 Flash se ressemblent sur certains cas de test
Peut-être que Gemini 2.5 Flash commence par générer en arrière-plan une image de base avec Imagen, un modèle de diffusion, puis que Gemini l’édite ensuite pour mieux respecter le prompt
J’aime vraiment beaucoup ce site
Est-ce que quelqu’un connaît un site qui compare aussi la capacité des différents modèles à respecter un guide de style, par exemple pour des illustrations dessinées dans un style cohérent ?
J’aimerais beaucoup voir cette fonction ajoutée au site
Par exemple, fournir plusieurs images dans le style d’un artiste donné, puis comparer si le modèle peut produire des illustrations dans ce même style
Ce serait très utile pour des usages comme l’illustration de livres, où la cohérence du style est essentielle
Gemini 2.5 Flash Image est le seul à pouvoir traiter plusieurs images à la fois sans astuces bizarres
Par exemple, avec Flux Kontext, pour « fusionner la première image dans la deuxième », il faut d’abord combiner les images manuellement
Avec ce modèle, ce n’est pas nécessaire, et on peut même lui donner plus de deux images à la fois, même si cela peut devenir confus s’il y en a trop
D’après mes tests rapides, il respecte bien aussi les prompts longs et les formulations syntaxiques semblent mieux fonctionner
J’ai l’impression qu’il reste encore d’autres moyens de contrôle à découvrir, donc je continue d’expérimenter
Le prix est comparable à celui des modèles concurrents, donc je pense que cela va fortement bousculer le marché
Mon voisin est en vacances, donc je nourris ses poissons
Je prends une photo de l’aquarium et je demande à Gemini de « placer l’aquarium dans un lieu emblématique de la ville »
Je lui en envoie une nouvelle chaque jour, et il adore
Ce genre de petite blague met un peu de joie dans le quotidien
Malheureusement, comme avec d’autres produits IA, il y a le problème de politiques de sécurité beaucoup trop strictes
La moitié des prompts sont refusés
Je me demande comment on est censé maintenir la cohérence d’un personnage si l’édition humaine est impossible
J’essaie surtout d’éditer des photos contenant des personnes, mais c’est impossible avec ce modèle
Je comprends que Google pense au problème des deepfakes, mais on ne pourra de toute façon pas empêcher cette évolution, et la société devra finir par s’y adapter
Il est frustrant de voir les outils restreindre toujours davantage leurs utilisateurs
Au final, je pense qu’il faudra un nouveau mouvement OSS pour retrouver de la liberté
J’ai une photo de mon ex et de sa cousine prises ensemble en vêtements de Noël quand elles étaient petites
Elles ont vécu séparées pendant longtemps, donc c’est devenu un souvenir précieux
Mais la photo est non seulement abîmée, elle est aussi de mauvaise qualité
Et jusqu’à présent, aucun modèle IA n’a réussi à la restaurer
Il y a deux jours, j’ai essayé d’utiliser Veo gratuitement pour faire une vidéo
J’ai supprimé même des mots tout à fait anodins, mais c’était toujours refusé
J’imagine que le problème venait du fait que j’essayais de générer « moi-même », alors j’ai fini par abandonner
J’ai numérisé des photos de famille, mais elles présentent beaucoup de dégradations difficiles à restaurer, comme des dominantes de couleur, des taches, des traces de doigts ou des marques de pellicule
Il est difficile de corriger des centaines de photos une par une, donc j’attendais qu’une génération d’images basée sur l’IA progresse assez pour restaurer en masse sans modifier les détails, surtout les visages
Ce modèle semble assez bon pour préserver les détails tout en restaurant seulement les parties manquantes, donc j’ai l’impression que le moment est venu d’essayer
Tous les dommages mentionnés ci-dessus peuvent être corrigés automatiquement avec un scanner de pellicule doté de la fonction ICE et un logiciel de restauration automatique comme Vuescan
À mon avis, il n’y a pas besoin d’envoyer des centaines ou des milliers de photos vers une IA cloud expérimentale et propriétaire pour n’obtenir que des résultats médiocres, avec une compression étrange et des artefacts
Je ne vois pas très bien l’intérêt de cet usage
Ne suffit-il pas d’imaginer à quoi ressemblerait la photo sans les dégâts ?
C’est pareil avec l’upscaling IA des caméras de téléphone
Si l’on veut voir quelque chose de lointain, on peut juste l’imaginer
Au final, je pense qu’il faut surtout des outils IA capables d’automatiser ce qu’un expert Photoshop ferait réellement avec ses outils
Générer arbitrairement de nouveaux détails me semble une perte de temps
Je me demande si quelqu’un connaît un logiciel pour restaurer/améliorer des fichiers vidéo
Je suis en train de numériser les vidéos des années 2000 et les cassettes VHS de ma mère
J’ai déjà toute l’installation pour la numérisation, mais j’aimerais encore améliorer la qualité vidéo
J’espère que cela sera utile
Quand on regarde le résultat du prompt « restauration photo » parmi les exemples, le visage de la femme a fortement des traits d’IA
Bien sûr, j’imagine que cela s’améliorera avec le temps
Je pense que Flux Kontext(https://bfl.ai/models/flux-kontext) avait déjà atteint ce stade il y a quelques mois
Toutes les images générées ou éditées avec Gemini 2.5 Flash Image reçoivent un filigrane numérique invisible appelé SynthID, qui indique qu’elles ont été générées ou modifiées par IA
Je comprends l’intention et la bonne volonté derrière cela, mais je trouve dommage qu’on en soit à un point où ce sont les grandes entreprises qui décident de ce que les adultes ont ou non le droit de faire au lieu de les laisser responsables eux-mêmes
Cela donne une impression de surveillance
J’aurais envie de répondre : est-ce que les humains ont déjà vraiment été des adultes responsables dans leur usage de la technologie ?
Les deepfakes risquent déjà d’aggraver fortement l’instabilité de notre perception du réel
Beaucoup de gens vont se faire tromper par des faux, tandis que d’autres ne croiront plus en rien
Les responsables politiques diront « faux » dès qu’une vidéo gênante pour eux apparaîtra
Nous vivons déjà en partie dans une époque post-vérité, mais la situation risque encore d’empirer
En pratique, il est difficile de considérer cela comme une image réellement créée par l’utilisateur
Par exemple, si un artiste place un filigrane sur une œuvre commandée, cela indique simplement que c’est son travail, et on ne considérerait pas cela comme de la délation
Ce n’est peut-être pas ce que tu voulais dire, mais cela mérite d’y réfléchir
Je ne suis pas d’accord avec la logique du type « si tu n’as rien à cacher, tu n’as rien à craindre », mais je me demande tout de même pourquoi le filigrane sur les images générées/éditées par IA poserait problème
Pour ma part, je pense même qu’un filigrane devrait être obligatoire pour les images IA
Ce n’est pas comme si on était obligé d’utiliser ce modèle, donc personnellement je n’y vois pas de problème
C’est une course aux armements technologique
Voir removemysynthid.com
Comme la plupart des générateurs d’images, il échoue au test des touches de piano, en particulier les touches noires
Exemple de test
Je me demande ce qu’est exactement le test des touches de piano
Le lien demande un accès Google Drive via AI Studio, donc ce n’est pas très pratique à utiliser
Je me demande s’il existe un modèle qui inclut aussi des idées dans l’espace conceptuel, comme la répétition de 8 notes, par exemple
Quand il s’agit de représenter un piano, les mots proches de « piano » semblent insuffisants pour exprimer un concept fixe comme la répétition des octaves
J’ai l’impression que c’est là que ça bloque
Les mots seuls semblent avoir du mal à relier de façon cohérente l’image et le sens
La vraie force de ce modèle semble être moins la qualité de génération elle-même que la « cohérence entre générations »
Exemple
Intéressant
Quelqu’un qui a déjà vu un vrai piano remarquera immédiatement que quelque chose cloche ; c’est un peu comme les tests de rendu de texte, où l’image a « l’air » correcte mais est en réalité fausse
Avec un prompt ordinaire, beaucoup accepteraient probablement sans problème quelque chose comme : « voilà une photo de clavier de piano », en prenant simplement le premier résultat de Google Images
Il a aussi échoué à mon test de texte horizontal
J’ai essayé de reproduire moi-même les exemples fork/spaghetti et fashion bubble, mais le résultat est très différent des résultats officiels
Le rendu reste lui aussi cohérent
J’ai peut-être une résolution différente parce que j’ai copié les images depuis la page publicitaire, mais j’ai utilisé exactement les mêmes prompts
Il semble bien que j’utilise le nouveau modèle, et comparé à avant, c’est une énorme avancée
La cohérence des résultats est intéressante
J’ai lancé plusieurs générations de mon test standard personnel pour les modèles d’images, et jusqu’ici aucun modèle n’a jamais correctement dessiné les octaves d’un piano, et Gemini 2.5 Flash Image ne fait pas exception
Mais quand on compare plusieurs essais, il n’y a absolument aucune variation
ChatGPT, quand on lui donnait un prompt d’édition, modifiait souvent aussi d’autres éléments en plus du changement demandé ; ici, ce genre de variation n’existe tout simplement pas
Exemple d’image
Les résultats réels paraissent bien plus ordinaires ou ambigus que ce qui est montré dans la publicité
Dans l’exemple, la génération du sujet-bulle ne fait en réalité que produire une vague forme de bulle dans le sujet
Dans l’exemple de la fourchette, elle se contente d’ajouter une fourchette sur les nouilles
Dans les deux cas, on peut dire que le prompt est en fait mieux respecté, mais visuellement c’est moins impressionnant
Je suis content de ne pas être devenu expert Photoshop
À une époque, cette voie me paraissait attirante, mais au final je suis heureux de ne pas l’avoir choisie
Maintenant, un nano-banana suffit
Je suis certain que les autres modèles vont bientôt rattraper leur retard
La communauté r/photoshopbattles peut dire adieu à son époque
La retouche est un art
Pour les professionnels, ce type d’IA n’est qu’un outil de plus pour gagner en efficacité
Ce qui compte, ce n’est pas seulement savoir utiliser Photoshop, mais aussi avoir du jugement
Bien sûr, si le volume de travail n’augmente pas, on peut imaginer que le même travail sera fait par moins de retoucheurs
Si les prix baissent, est-ce que tout le monde demandera plus de retouches ? Je n’en suis pas sûr
Point de vue intéressant
Je suis programmeur, mais j’ai aussi appris Photoshop au début des années 2000 et j’adorais vraiment faire de l’édition d’images
Les modèles génératifs actuels produisent certes bien mieux que ce que je faisais à l’époque, mais je ne pense pas du tout que cette expérience et ces compétences soient devenues inutiles
En pratique, Photoshop, ou aujourd’hui plutôt Affinity Designer/Photo, reste extrêmement utile pour affiner les résultats de l’IA
Je ne l’ai jamais regretté
Si j’avais écrit ce commentaire il y a 10 ans, j’aurais au moins pu dire que le programme et mes compétences m’appartenaient, et qu’ils resteraient à moi même si Google augmentait le prix de l’abonnement ou arrêtait le service
Maintenant, même PS est sur abonnement, et il faut attendre qu’un bon modèle ouvert apparaisse
Photoshop reste utile
Les images IA sont excellentes, mais je veux toujours créer moi-même la composition de base, et pour nettoyer les artefacts des résultats IA ou assembler différentes couches issues de l’IA, les compétences manuelles restent indispensables
Au final, d’autres domaines comme la programmation sont eux aussi condamnés à être emportés par l’automatisation
Cela prendra simplement un peu plus de temps, peut-être 5 à 10 ans
L’ingénierie peut prendre davantage de temps à cause des erreurs et de la dette technique
Une image ratée, on peut la régénérer ; un programme raté devient immédiatement une masse de code ingérable
Mais tôt ou tard, cette dynamique atteindra aussi notre domaine
Quand je demande à Gemini de générer une image, une fois sur deux il répond que ce n’est pas possible
J’ai l’impression que les fonctions Google sont vraiment difficiles à utiliser en pratique
Certaines sont dans un produit, d’autres ailleurs, et il est difficile de savoir où accéder à quoi
Oui
Le site indique « essayez-le dans Gemini », mais quand je sélectionne Gemini 2.5 Flash, je ne suis même pas sûr de l’utiliser correctement
Ce modèle n’est même pas disponible dans l’app ou le site Gemini
Il faut passer par AI Studio ou d’autres chemins
L’UI/UX de Google est globalement vraiment confuse