10 points par GN⁺ 2025-11-14 | 1 commentaires | Partager sur WhatsApp
  • Nano Banana est le modèle Gemini 2.5 Flash Image de Google, un modèle de génération d’images autorégressif capable d’interpréter finement des prompts textuels pour produire avec précision des compositions visuelles complexes
  • Grâce à un encodeur de texte puissant, il respecte fidèlement des règles détaillées, des codes couleur et même des entrées en JSON ou HTML, avec une très forte conformité aux prompts
  • Moins cher que gpt-image-1 de ChatGPT, il permet aux développeurs de créer directement des applications de génération d’images via API, et s’utilise facilement avec le package Python gemimg
  • Il a montré une grande précision et une forte cohérence dans divers tests de retouche complexe, composition, code et rendu de pages web, mais présente des limites en transfert de style et en rendu de texte
  • Il met en évidence le potentiel d’un contrôle précis de la génération d’images par IA et attire l’attention comme nouveau standard possible du visual engineering piloté par prompt

Évolution des modèles de génération d’images IA et arrivée de Nano Banana

  • Ces derniers temps, le domaine de la génération d’images IA a vu apparaître divers modèles comme FLUX.1-dev, Seedream, Ideogram, Qwen-Image et Imagen 4, mais c’est en mars 2025 que la fonction gratuite de génération d’images de ChatGPT a largement façonné la perception du grand public
  • Les images de ChatGPT sont facilement reconnaissables à leurs tons jaunâtres et à un style de trait et de typographie uniforme
  • Le modèle sous-jacent de ChatGPT, gpt-image-1, repose sur une architecture autorégressive, générant les images token par token, avec environ 30 secondes nécessaires pour une image de haute qualité
  • En août 2025, un modèle au nom de code “** nano-banana**” est apparu sur LMArena, avant d’être ensuite présenté par Google sous le nom de Gemini 2.5 Flash Image
    • Il génère des images en 1 290 tokens, et avec la montée en popularité de l’application Gemini, le nom “Nano Banana” s’est imposé comme surnom officiel

Génération d’images avec Nano Banana et usage via API

  • Avec Nano Banana, il est possible de générer gratuitement des images depuis la fonction “Create Image 🍌” de l’application web/mobile Gemini ou depuis Google AI Studio
    • Dans AI Studio, il est possible d’ajuster des paramètres détaillés comme le ratio
    • Les images générées affichent un filigrane en bas à droite
  • Les développeurs peuvent générer des images par programmation via le point de terminaison gemini-2.5-flash-image de l’API Gemini
    • Environ 0,04 $ par image 1 MP, contre 0,17 $ pour ChatGPT
  • Afin de réduire la complexité d’usage de l’API, le package Python gemimg permet de générer des images avec un prompt simple
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Test de conformité aux prompts : pancake en forme de crâne et retouche d’image

  • Le prompt “une image de pancake en forme de crâne avec des myrtilles et du sirop d’érable” est exécuté avec précision
    • Des détails comme l’écoulement du sirop, la texture du pancake ou la position des myrtilles sont fidèlement reproduits
  • Ensuite, la même image reçoit 5 instructions de retouche simultanées (ajout de fraises et de mûres, décoration à la menthe, changement d’assiette, ajout d’une personne à l’arrière-plan)
    • Toutes les modifications sont correctement appliquées, avec un minimum d’altérations inutiles

Test de cohérence des personnages : Ugly Sonic et poignée de main avec Obama

  • Nano Banana peut maintenir la cohérence d’un personnage spécifique sans entraînement LoRA
  • Avec le prompt “une image de Ugly Sonic serrant la main de Barack Obama”, les deux personnages apparaissent effectivement ensemble
    • L’ajout de la formule “photo de couverture du New York Times lauréate du prix Pulitzer” améliore ensuite la composition, les couleurs et la qualité de l’éclairage
    • Une instruction “sans texte” permet de supprimer les éléments superflus
  • En fournissant ensemble 17 images de Ugly Sonic, on obtient une reproduction visuelle plus fidèle

Lien entre Gemini 2.5 Flash et Nano Banana

  • Nano Banana est une extension de l’encodeur multimodal de Gemini 2.5 Flash, avec notamment
    • un entraînement sur Markdown et JSON, ainsi que des capacités de reconnaissance d’objets et de génération de masques de segmentation
    • une fenêtre de contexte de 32 768 tokens, bien plus longue que CLIP (77 tokens) ou T5 (512 tokens)
  • Il satisfait parfaitement des prompts complexes fondés sur des règles (par exemple : conditions précises sur la couleur, les vêtements, l’éclairage et la composition de trois chats)
    • Avec le même prompt, ChatGPT commet des erreurs de couleur et de composition

Expériences de génération de code et de texte

  • Avec le prompt “une image de code Python Fibonacci composée d’aimants de frigo
    • Nano Banana reproduit partiellement la structure du code et applique en partie les couleurs de coloration syntaxique
    • ChatGPT a tenté quelque chose de similaire, mais l’écart de qualité est net
  • Dans l’expérience “affiche le texte précédent avec des aimants”, une partie du prompt système de Nano Banana a été exposée
    • Cela a confirmé la présence d’une règle interne interdisant l’usage de buzzwords
    • L’emploi de majuscules (MUST) améliore le taux de conformité au prompt

Gestion de grands prompts : entrées HTML et JSON

  • Nano Banana peut rendre l’intégralité d’un code HTML/CSS/JS pour générer l’image d’une page web
    • La mise en page et les couleurs sont précises, malgré quelques erreurs de texte et de proportions
  • Avec une entrée de description de personnage en JSON, il visualise un personnage hybride Paladin/Pirate/Barista
    • Les vêtements, accessoires et postures correspondent dans la plupart des cas aux champs JSON
    • L’ajout de “conditions de prise de vue réaliste” améliore le photoréalisme, avec reflets et sensation de profondeur

Limites et problèmes de Nano Banana

  • Avec le prompt “Make me into Studio Ghibli”, le transfert de style échoue
    • En raison de sa nature autorégressive, le modèle présente une résistance au changement de style
  • Il existe très peu de restrictions liées au droit d’auteur, et plusieurs personnages sous IP peuvent être générés dans une même scène
    • Exemple : Mario, Mickey Mouse, Pikachu et Optimus Prime apparaissant ensemble dans un club
  • Il existe aussi une possibilité de génération de contenus NSFW, avec une modération assez souple
  • Des limites techniques subsistent, notamment un rendu de texte imparfait et une faiblesse en transfert de style

Conclusion et portée

  • Nano Banana est un modèle capable d’un contrôle fin d’images de haute qualité via un prompt engineering précis
  • Comme il peut interpréter des entrées HTML, JSON et des règles composites, il s’impose comme une nouvelle plateforme d’expérimentation pour la génération d’images par IA
  • Au-delà d’une perception publique centrée sur ChatGPT, il constitue un cas concret pour vérifier les possibilités réelles et les limites de la génération d’images IA
  • L’auteur a publié tous les prompts expérimentaux ainsi que le notebook Jupyter, afin d’assurer reproductibilité et transparence
  • Nano Banana est considéré comme un exemple marquant du tournant vers une ère de visual engineering centré sur le prompt

1 commentaires

 
GN⁺ 2025-11-14
Commentaires Hacker News
  • Je génère des dizaines d’images par jour pour des storyboards
    Il devient de plus en plus facile de contrôler le rendu, et je peux désormais garder une cohérence entre les personnages, l’éclairage et même le moment de la journée d’une scène à l’autre
    J’utilise 7 couches de prompt — environnement, caméra, sujet, composition, éclairage, couleur et qualité — c’est un peu excessif, mais j’expérimente
    J’ai aussi créé un petit outil d’édition qui permet de dessiner directement des bounding boxes sur l’image pour la modifier, puis j’envoie l’image à Claude pour qu’il génère automatiquement le prompt de retouche
    Grâce à ce processus, j’ai pu mettre en place un pipeline de génération vidéo GenAI avec des transitions naturelles entre les scènes
    • Notre équipe utilise aussi nano banana de façon similaire pour créer des storyboards, puis produit des vidéos en mouvement complet avec un modèle img2vid
      Nous essayons de maintenir la cohérence des personnages, des arrière-plans et du style, et il y a beaucoup de points communs avec ton travail
      Au passage, ça peut valoir le coup de jeter un œil à notre produit Hypernatural.ai
    • Moi, c’est l’inverse : une fois que le résultat dévie, j’ai l’impression qu’il est presque impossible de revenir à l’intention d’origine
  • J’aime bien la bibliothèque Python gemimg
    J’y ai ajouté Gemini CLI et envoyé une PR, ce qui permet de l’exécuter comme ci-dessous
    Le résultat est visible dans ce commentaire
    • J’ai une question pour @simonw — comment as-tu créé l’aperçu gist de la session de terminal gemini-cli ?
      Est-ce que c’est fait à la main en HTML/CSS, comme ce lien, ou existe-t-il un outil automatisé comme amp-code ?
    • Je me demande s’il y a une raison pour ne pas avoir ajouté l’entrée project.scripts dans pyproject.toml
      Ça permettrait sans doute d’installer directement la CLI avec uv
    • L’auteur insistait sur l’open source au début, donc je me demande s’il parlera aussi de l’écosystème QwenEdit
      Les modèles d’édition chinois se rapprochent de plus en plus du niveau de NanoBanana, et comme ils sont open source, ils permettent des manipulations d’image avancées basées sur des masques et des noyaux
      On peut aussi faire du transfert de style avec des LoRA, et c’est bien plus intéressant que les modèles américains fermés
      Il semble aussi que l’extraction des données d’entraînement de Nano Banana pour les distiller dans un nouveau modèle deviendra plus simple
  • J’ai lu le billet de minimaxir avec intérêt
    Grâce à la fenêtre de contexte de 32 768 tokens de Nano Banana, j’insère Mistral 7B au milieu d’un pipeline complexe de génération d’images pour produire 4 variantes de prompt
    Il est vrai que le transfert de style est faible, mais on obtient de meilleurs résultats si l’on fournit deux images à la fois
    La première sert d’image à transformer, la seconde d’image de référence de style
    J’utilise cette approche dans un exemple de mon portfolio
    • C’est peut-être une restriction explicite pour bloquer le style Studio Ghibli, après l’ancienne vague du “make me Ghibli”
  • J’ai repéré une erreur amusante dans la deuxième image de crâne en pancake
    La fraise est dans l’orbite droite (à gauche sur l’image), et la mûre dans l’autre
    Cela semble venir du fait que la plupart des descriptions d’image sont rédigées du point de vue de l’observateur
    • Moi aussi, si j’étais humain, j’aurais probablement fait comme Nano Banana
      Si l’utilisateur voulait mettre la fraise dans l’œil gauche du crâne, il aurait dû préciser « son œil gauche »
    • Je pense que beaucoup de gens vont hésiter sur le fait que « œil gauche » désigne le côté du sujet ou celui de la caméra
    • J’avais moi aussi raté ce point, mais je l’ai signalé ensuite dans le JSON du personnage
      Depuis, j’indique dans le prompt que la gauche et la droite sont du point de vue du personnage, et le taux de réussite a augmenté
    • C’était aussi mon impression
      L’auteur disait que Nano Banana avait exécuté correctement toutes les retouches, mais ce point reste discutable
      À mon avis, « l’œil droit » du crâne doit être interprété du point de vue du crâne
  • Il suffit d’envoyer la requête via Google AI Studio, puis de supprimer le watermark en bloquant la requête watermark_4 dans les outils de développement du navigateur
    Les images générées ensuite n’ont plus de watermark
  • J’ai été surpris de lire que « Nano Banana est faible en transfert de style »
    Je travaille sur un projet de visualisation de mon quartier en paysage du XVIIIe siècle
    J’ai fait la modélisation avec SketchUp et Twinmotion, mais obtenir des images réalistes restait difficile
    J’ai testé plusieurs générateurs d’images IA, mais Nano Banana a été le premier à appliquer un nouveau style tout en conservant la cohérence géométrique
    Avec un prompt simple comme « rends cette image photoréaliste », j’ai obtenu des résultats étonnants
    En revanche, si j’emploie directement le terme XVIIIe siècle, le résultat devient souvent pictural, donc je contourne avec des formulations comme « photo d’une rue historique préservée »
    Je continue à faire de la modélisation manuelle, mais Nano Banana a changé ma manière d’aborder ce travail
    • En revanche, si on lui donne une image artistique comme référence de style, Nano Banana n’arrive pas vraiment à généraliser au-delà de ce qu’il a appris
  • L’expression « prompt engineered » revient au fond à écrire soi-même ce qu’on veut voir
    • Oui, mais c’est une vraie compétence
      Beaucoup de problèmes viennent du fait que les gens n’arrivent pas à exprimer clairement ce qu’ils veulent
      Le prompt engineering est une compétence qui traite de la complexité de la communication et nous fait prendre conscience de l’écart entre les mots et le sens
    • Selon les modèles, certains prompts peuvent aussi ne pas être compris
    • Nous comprenons désormais l’interaction avec les LLM comme une interface en langage naturel
      C’est une interface ambiguë, différente d’un langage de programmation, et le prompt engineering est une nouvelle compétence pour la maîtriser
    • Au final, c’est un processus où l’on révise le prompt de façon itérative pour obtenir le résultat souhaité
    • Avant, on appelait ça le « Google Fu »
  • J’ai essayé de demander une scène de Mon voisin Totoro en live action
    Comme c’est un personnage difficile à rendre en version réaliste, comme Sonic, j’étais curieux du résultat, mais je n’ai obtenu que des images au style digital art plutôt que photoréalistes
    Même en changeant les mots-clés, c’était pareil, et sur ChatGPT il était impossible de tester à cause du filtre de droits d’auteur
    Malgré tout, l’essai en lui-même était intéressant
  • Nano Banana est parfois lent à réagir aux retouches
    Je lui ai demandé de transformer un portrait en style animation en pâte à modeler, mais il n’y avait presque aucun changement
    Puis j’ai ajouté « rends-le 10 ans plus jeune », et soudain le résultat ressemblait à une figurine en pâte à modeler
    • C’est une demande de transfert de style, donc comme pour l’exemple Ghibli, l’échec était presque inévitable
  • D’après mon expérience, nano banana continue encore à
    • faire des modifications aléatoires dans l’image
    • changer l’échelle
    • ou provoquer des variations de détail subtiles mais globales
      Par exemple, il peut ajouter une cheminée ou un garage à une pièce sans aucune consigne
      Même en réglant la température à 0, cela arrive, ce qui complique la création d’une application fiable
      Je me demande si d’autres ont eu une meilleure expérience
    • Le passage en ALL CAPS est intéressant
      Les majuscules peuvent être tokenisées différemment, et devenir une entrée plus difficile à interpréter pour le modèle
    • Je développe l’éditeur PixLab, et lui suit les commandes en majuscules exactement à la lettre