- Nano Banana est le modèle Gemini 2.5 Flash Image de Google, un modèle de génération d’images autorégressif capable d’interpréter finement des prompts textuels pour produire avec précision des compositions visuelles complexes
- Grâce à un encodeur de texte puissant, il respecte fidèlement des règles détaillées, des codes couleur et même des entrées en JSON ou HTML, avec une très forte conformité aux prompts
- Moins cher que gpt-image-1 de ChatGPT, il permet aux développeurs de créer directement des applications de génération d’images via API, et s’utilise facilement avec le package Python
gemimg
- Il a montré une grande précision et une forte cohérence dans divers tests de retouche complexe, composition, code et rendu de pages web, mais présente des limites en transfert de style et en rendu de texte
- Il met en évidence le potentiel d’un contrôle précis de la génération d’images par IA et attire l’attention comme nouveau standard possible du visual engineering piloté par prompt
Évolution des modèles de génération d’images IA et arrivée de Nano Banana
- Ces derniers temps, le domaine de la génération d’images IA a vu apparaître divers modèles comme FLUX.1-dev, Seedream, Ideogram, Qwen-Image et Imagen 4, mais c’est en mars 2025 que la fonction gratuite de génération d’images de ChatGPT a largement façonné la perception du grand public
- Les images de ChatGPT sont facilement reconnaissables à leurs tons jaunâtres et à un style de trait et de typographie uniforme
- Le modèle sous-jacent de ChatGPT, gpt-image-1, repose sur une architecture autorégressive, générant les images token par token, avec environ 30 secondes nécessaires pour une image de haute qualité
- En août 2025, un modèle au nom de code “** nano-banana**” est apparu sur LMArena, avant d’être ensuite présenté par Google sous le nom de Gemini 2.5 Flash Image
- Il génère des images en 1 290 tokens, et avec la montée en popularité de l’application Gemini, le nom “Nano Banana” s’est imposé comme surnom officiel
Génération d’images avec Nano Banana et usage via API
Test de conformité aux prompts : pancake en forme de crâne et retouche d’image
- Le prompt “une image de pancake en forme de crâne avec des myrtilles et du sirop d’érable” est exécuté avec précision
- Des détails comme l’écoulement du sirop, la texture du pancake ou la position des myrtilles sont fidèlement reproduits
- Ensuite, la même image reçoit 5 instructions de retouche simultanées (ajout de fraises et de mûres, décoration à la menthe, changement d’assiette, ajout d’une personne à l’arrière-plan)
- Toutes les modifications sont correctement appliquées, avec un minimum d’altérations inutiles
Test de cohérence des personnages : Ugly Sonic et poignée de main avec Obama
- Nano Banana peut maintenir la cohérence d’un personnage spécifique sans entraînement LoRA
- Avec le prompt “une image de Ugly Sonic serrant la main de Barack Obama”, les deux personnages apparaissent effectivement ensemble
- L’ajout de la formule “photo de couverture du New York Times lauréate du prix Pulitzer” améliore ensuite la composition, les couleurs et la qualité de l’éclairage
- Une instruction “sans texte” permet de supprimer les éléments superflus
- En fournissant ensemble 17 images de Ugly Sonic, on obtient une reproduction visuelle plus fidèle
Lien entre Gemini 2.5 Flash et Nano Banana
- Nano Banana est une extension de l’encodeur multimodal de Gemini 2.5 Flash, avec notamment
- un entraînement sur Markdown et JSON, ainsi que des capacités de reconnaissance d’objets et de génération de masques de segmentation
- une fenêtre de contexte de 32 768 tokens, bien plus longue que CLIP (77 tokens) ou T5 (512 tokens)
- Il satisfait parfaitement des prompts complexes fondés sur des règles (par exemple : conditions précises sur la couleur, les vêtements, l’éclairage et la composition de trois chats)
- Avec le même prompt, ChatGPT commet des erreurs de couleur et de composition
Expériences de génération de code et de texte
- Avec le prompt “une image de code Python Fibonacci composée d’aimants de frigo”
- Nano Banana reproduit partiellement la structure du code et applique en partie les couleurs de coloration syntaxique
- ChatGPT a tenté quelque chose de similaire, mais l’écart de qualité est net
- Dans l’expérience “affiche le texte précédent avec des aimants”, une partie du prompt système de Nano Banana a été exposée
- Cela a confirmé la présence d’une règle interne interdisant l’usage de buzzwords
- L’emploi de majuscules (
MUST) améliore le taux de conformité au prompt
Gestion de grands prompts : entrées HTML et JSON
- Nano Banana peut rendre l’intégralité d’un code HTML/CSS/JS pour générer l’image d’une page web
- La mise en page et les couleurs sont précises, malgré quelques erreurs de texte et de proportions
- Avec une entrée de description de personnage en JSON, il visualise un personnage hybride Paladin/Pirate/Barista
- Les vêtements, accessoires et postures correspondent dans la plupart des cas aux champs JSON
- L’ajout de “conditions de prise de vue réaliste” améliore le photoréalisme, avec reflets et sensation de profondeur
Limites et problèmes de Nano Banana
- Avec le prompt “Make me into Studio Ghibli”, le transfert de style échoue
- En raison de sa nature autorégressive, le modèle présente une résistance au changement de style
- Il existe très peu de restrictions liées au droit d’auteur, et plusieurs personnages sous IP peuvent être générés dans une même scène
- Exemple : Mario, Mickey Mouse, Pikachu et Optimus Prime apparaissant ensemble dans un club
- Il existe aussi une possibilité de génération de contenus NSFW, avec une modération assez souple
- Des limites techniques subsistent, notamment un rendu de texte imparfait et une faiblesse en transfert de style
Conclusion et portée
- Nano Banana est un modèle capable d’un contrôle fin d’images de haute qualité via un prompt engineering précis
- Comme il peut interpréter des entrées HTML, JSON et des règles composites, il s’impose comme une nouvelle plateforme d’expérimentation pour la génération d’images par IA
- Au-delà d’une perception publique centrée sur ChatGPT, il constitue un cas concret pour vérifier les possibilités réelles et les limites de la génération d’images IA
- L’auteur a publié tous les prompts expérimentaux ainsi que le notebook Jupyter, afin d’assurer reproductibilité et transparence
- Nano Banana est considéré comme un exemple marquant du tournant vers une ère de visual engineering centré sur le prompt
1 commentaires
Commentaires Hacker News
Il devient de plus en plus facile de contrôler le rendu, et je peux désormais garder une cohérence entre les personnages, l’éclairage et même le moment de la journée d’une scène à l’autre
J’utilise 7 couches de prompt — environnement, caméra, sujet, composition, éclairage, couleur et qualité — c’est un peu excessif, mais j’expérimente
J’ai aussi créé un petit outil d’édition qui permet de dessiner directement des bounding boxes sur l’image pour la modifier, puis j’envoie l’image à Claude pour qu’il génère automatiquement le prompt de retouche
Grâce à ce processus, j’ai pu mettre en place un pipeline de génération vidéo GenAI avec des transitions naturelles entre les scènes
Nous essayons de maintenir la cohérence des personnages, des arrière-plans et du style, et il y a beaucoup de points communs avec ton travail
Au passage, ça peut valoir le coup de jeter un œil à notre produit Hypernatural.ai
J’y ai ajouté Gemini CLI et envoyé une PR, ce qui permet de l’exécuter comme ci-dessous
Le résultat est visible dans ce commentaire
Est-ce que c’est fait à la main en HTML/CSS, comme ce lien, ou existe-t-il un outil automatisé comme amp-code ?
Ça permettrait sans doute d’installer directement la CLI avec uv
Les modèles d’édition chinois se rapprochent de plus en plus du niveau de NanoBanana, et comme ils sont open source, ils permettent des manipulations d’image avancées basées sur des masques et des noyaux
On peut aussi faire du transfert de style avec des LoRA, et c’est bien plus intéressant que les modèles américains fermés
Il semble aussi que l’extraction des données d’entraînement de Nano Banana pour les distiller dans un nouveau modèle deviendra plus simple
Grâce à la fenêtre de contexte de 32 768 tokens de Nano Banana, j’insère Mistral 7B au milieu d’un pipeline complexe de génération d’images pour produire 4 variantes de prompt
Il est vrai que le transfert de style est faible, mais on obtient de meilleurs résultats si l’on fournit deux images à la fois
La première sert d’image à transformer, la seconde d’image de référence de style
J’utilise cette approche dans un exemple de mon portfolio
La fraise est dans l’orbite droite (à gauche sur l’image), et la mûre dans l’autre
Cela semble venir du fait que la plupart des descriptions d’image sont rédigées du point de vue de l’observateur
Si l’utilisateur voulait mettre la fraise dans l’œil gauche du crâne, il aurait dû préciser « son œil gauche »
Depuis, j’indique dans le prompt que la gauche et la droite sont du point de vue du personnage, et le taux de réussite a augmenté
L’auteur disait que Nano Banana avait exécuté correctement toutes les retouches, mais ce point reste discutable
À mon avis, « l’œil droit » du crâne doit être interprété du point de vue du crâne
watermark_4dans les outils de développement du navigateurLes images générées ensuite n’ont plus de watermark
Je travaille sur un projet de visualisation de mon quartier en paysage du XVIIIe siècle
J’ai fait la modélisation avec SketchUp et Twinmotion, mais obtenir des images réalistes restait difficile
J’ai testé plusieurs générateurs d’images IA, mais Nano Banana a été le premier à appliquer un nouveau style tout en conservant la cohérence géométrique
Avec un prompt simple comme « rends cette image photoréaliste », j’ai obtenu des résultats étonnants
En revanche, si j’emploie directement le terme XVIIIe siècle, le résultat devient souvent pictural, donc je contourne avec des formulations comme « photo d’une rue historique préservée »
Je continue à faire de la modélisation manuelle, mais Nano Banana a changé ma manière d’aborder ce travail
Beaucoup de problèmes viennent du fait que les gens n’arrivent pas à exprimer clairement ce qu’ils veulent
Le prompt engineering est une compétence qui traite de la complexité de la communication et nous fait prendre conscience de l’écart entre les mots et le sens
C’est une interface ambiguë, différente d’un langage de programmation, et le prompt engineering est une nouvelle compétence pour la maîtriser
Comme c’est un personnage difficile à rendre en version réaliste, comme Sonic, j’étais curieux du résultat, mais je n’ai obtenu que des images au style digital art plutôt que photoréalistes
Même en changeant les mots-clés, c’était pareil, et sur ChatGPT il était impossible de tester à cause du filtre de droits d’auteur
Malgré tout, l’essai en lui-même était intéressant
Je lui ai demandé de transformer un portrait en style animation en pâte à modeler, mais il n’y avait presque aucun changement
Puis j’ai ajouté « rends-le 10 ans plus jeune », et soudain le résultat ressemblait à une figurine en pâte à modeler
Par exemple, il peut ajouter une cheminée ou un garage à une pièce sans aucune consigne
Même en réglant la température à 0, cela arrive, ce qui complique la création d’une application fiable
Je me demande si d’autres ont eu une meilleure expérience
Les majuscules peuvent être tokenisées différemment, et devenir une entrée plus difficile à interpréter pour le modèle