Nano Banana Pro : le modèle de génération d’images de Google DeepMind basé sur Gemini 3 Pro

(blog.google)

11 points par GN⁺ 2025-11-21 | 1 commentaires | Partager sur WhatsApp

Nano Banana Pro est le tout dernier modèle de génération et d’édition d’images de Google DeepMind, basé sur Gemini 3 Pro, qui permet de concrétiser avec précision des idées visuelles
Grâce à un rendu de texte amélioré et à la prise en charge multilingue, il peut insérer directement dans l’image des textes lisibles pour des affiches, mockups, infographies, etc.
Avec la fusion de jusqu’à 14 images, le maintien de la cohérence de 5 personnages et la prise en charge des résolutions 2K à 4K, il facilite la création de contenus visuels de haute qualité
Il est intégré à divers produits Google comme Google Ads, Workspace, l’app Gemini et AI Studio, ce qui le rend exploitable par les consommateurs, les professionnels et les développeurs
Le filigrane SynthID garantit la transparence des images générées par IA, et une fonction d’identification des contenus IA est directement proposée dans l’app Gemini

Vue d’ensemble de Nano Banana Pro

Nano Banana Pro est un modèle qui exploite les capacités de raisonnement et les connaissances du monde de Gemini 3 Pro pour visualiser avec finesse des informations visuelles
- Il s’agit d’une version améliorée lancée après la version précédente, Nano Banana (Gemini 2.5 Flash Image)
- Il prend en charge divers travaux de design comme l’idéation, la visualisation de données ou la transformation de notes manuscrites en diagrammes

Fonctionnalités principales

Génération de visuels précis et riches en contexte
- Les fonctions avancées de raisonnement de Gemini 3 permettent de produire des contenus factuels comme des infographies pédagogiques ou des diagrammes
- Connecté aux informations en temps réel de Google Search, il peut visualiser des données en direct comme la météo, le sport ou des recettes
Rendu de texte multilingue
- Le texte dans les images est restitué avec précision et de manière lisible, avec possibilité de traduction et de localisation dans plusieurs langues
- Il convient à la création d’affiches ou de contenus de marque grâce à l’usage de polices, textures et styles typographiques variés
Rendu visuel de haute qualité
- Il permet de créer des images composites complexes avec la fusion de jusqu’à 14 images et le maintien de la cohérence de 5 personnages
- Il offre un contrôle fin de l’édition, comme la retouche locale, l’ajustement de l’angle de caméra, la correction des couleurs et le changement d’éclairage
- Il prend en charge les résolutions 2K et 4K ainsi que différents formats d’image, pour l’impression comme pour les plateformes numériques

Environnements d’utilisation

Pour les consommateurs et les étudiants
- Nano Banana Pro est disponible via la fonction « Create images » de l’app Gemini
- Les utilisateurs gratuits disposent d’un volume de génération limité, puis basculent vers la version Nano Banana de base
- Les abonnés à Google AI Plus, Pro et Ultra bénéficient de limites de génération plus élevées
Pour les professionnels
- La fonction de génération d’images de Google Ads a été mise à niveau avec Nano Banana Pro
- Il est également disponible dans Slides et Vids de Google Workspace
Pour les développeurs et les entreprises
- La prise en charge est étendue via la Gemini API, Google AI Studio, Vertex AI, Antigravity et Gemini Enterprise
Pour les créateurs
- L’outil Flow permet aux vidéastes et aux marketeurs d’exercer un contrôle précis scène par scène

Identification des images générées par IA et transparence

Toutes les images générées par Nano Banana Pro intègrent un filigrane numérique SynthID, ce qui permet d’en identifier l’origine
- Dans l’app Gemini, il est possible d’importer une image pour vérifier directement si elle a été « générée par l’IA de Google »
- Les images des utilisateurs gratuits et Pro reçoivent aussi un filigrane visible (Gemini sparkle)
- Les abonnés Ultra et les outils développeur d’AI Studio disposent d’un canevas propre sans filigrane
SynthID devrait à l’avenir être étendu aux contenus audio et vidéo

Ressources associées

Build with Nano Banana Pro : présentation du modèle Gemini 3 Pro Image pour les développeurs
Prompting Tips for Nano Banana Pro : guide pour rédiger des prompts efficaces
AI Image Verification in Gemini App : explication de la fonction de vérification d’images basée sur SynthID

Aucune information supplémentaire dans la source originale

1 commentaires

GN⁺ 2025-11-21

Avis Hacker News

Cette semaine, Google donnait l’impression de bouger comme Godzilla
J’ai essayé pour la première fois de connecter une carte à AI Studio, et le processus de paiement était beaucoup trop compliqué
Même après avoir tout configuré, j’avais toujours l’erreur « permission denied »
S’il faut aller aussi loin juste pour payer, peu importe la qualité du modèle, ça n’en vaut pas la peine
- Désolé pour cette mauvaise expérience
  L’équipe travaille d’arrache-pied pour améliorer l’accessibilité
  Un système de paiement intégré à AI Studio est en préparation pour réduire les frictions liées au paiement, avec un lancement mondial prévu en janvier
- Les API Google ont globalement une barrière à l’entrée beaucoup trop élevée
  Ailleurs, une simple clé API suffit, alors que chez Google il faut créer un compte → créer une application → activer le service → créer une application OAuth → télécharger le JSON
- Si vous voulez simplement utiliser l’API, je recommande Nano-Banana-Pro de Fal.ai
  L’inscription est bien plus simple et le service propose divers modèles d’IA
- J’utilise aussi les offres payantes de Claude et OpenAI, mais Gemini est tellement difficile à payer qu’il est déjà pénible rien que d’essayer
  Créer un projet GCP juste pour faire un test, c’est excessif
- L’inconfort est tel qu’il y a presque une opportunité business à créer un meilleur frontend développeur pour les produits IA de Google
J’ai retesté tous les prompts liés à l’édition avec Nano Banana Pro
Il a passé les tests SHRDLU, M&M Van Halen et Scorpio Street
Les résultats sont visibles ici
NB Pro a clairement montré de meilleures performances que le NB d’origine
- Sur le test d’édition de girafe, le résultat de NB Pro semblait meilleur que celui de Seedream, mais l’évaluation indiquait l’inverse
  Le test lui-même ne semblait pas très pertinent
- NB Pro aurait dû valider le test de la girafe
  Le résultat n’est pas parfait, mais il a bien fait ce qui était demandé
- Le test de la tour de Pise était intéressant
  Il réussit les prompts qui demandent des connaissances explicites, mais redresser simplement un objet incliné reste difficile
- Ce serait plus facile de comparer si l’image d’origine était toujours affichée avec chaque test
  Montrer l’original et le résultat côte à côte serait sans doute plus intuitif qu’un slider
- Le site est vraiment utile. Je me demande s’il est aussi prévu d’y faire le benchmark texte-vers-image avec NB Pro
J’ai mené pendant plusieurs mois une analyse de prompt engineering de Nano Banana, et Google a sorti une nouvelle version
Le nouveau modèle fonctionne directement dans le package gemimg
En revanche, son prix est trop élevé pour en faire le modèle par défaut
D’après la documentation, le modèle génère jusqu’à deux images intermédiaires (étape Thinking)
C’est peut-être ce qui explique la hausse du coût
- L’exemple de prompt « une fraise dans l’œil gauche, une mûre dans l’œil droit » était intéressant
  Le modèle interprète gauche et droite du point de vue de l’observateur, et les place donc au mauvais endroit
  Ce type d’erreur sur des consignes relatives est aussi fréquent en milieu médical
  Lien vers l’exemple correspondant
- Le guide Nano Banana de Max reste valable
  La plupart des prompts fonctionnent aussi bien avec NB Pro
  Lien du guide
  J’ai aussi partagé mes résultats d’expérimentation
- Le coût par image d’entrée est de 0,0011 $, pas de 0,06 $
- La version 0.3.2 de gemimg a été publiée, et la plupart des erreurs d’image dans NB Pro ont été corrigées
  La « transformation en style Studio Ghibli » est bien plus fidèle que dans ChatGPT
  En revanche, des images trop réalistes tombent parfois dans l’uncanny valley
- Le wrapper gemimg reste utile
  Cela m’a rappelé à quel point il est important de concevoir des outils adaptables capables de suivre les évolutions techniques
La capacité à générer une infographie complète à partir d’un prompt court est impressionnante
J’ai demandé « comment fonctionne le projet Datasette » et j’ai obtenu un résultat très abouti
Lien vers le résultat
- Cette fonction pourrait transformer radicalement la génération de flyers d’événement dans le SaaS
  Aujourd’hui, le texte était rendu séparément, mais il semble désormais possible de tout faire en une seule passe
- En revanche, il n’a pas réussi à trouver le do central sur un clavier de piano
  Voir cette image de résultat
- Il génère aussi de bonnes infographies pour des projets avec très peu d’informations, comme player.html
  Lien GitHub
  Il convertit même automatiquement au format carré pour Instagram
- Je me demande si l’infographie de Datasette correspond vraiment à son fonctionnement réel
Les images IA ne produisent plus d’artefacts manifestes, mais elles restent encore identifiables comme de l’IA à cause du style
Les infographies, en particulier, restaient distinguables de celles faites par des humains
Cela semble être le résultat d’une surreprésentation de certains jeux de données
- Les humains sont très sensibles aux différences visuelles subtiles
  Les modèles entraînés sur des moyennes créent un « espace d’image moyen »
  Cet exemple connexe montre qu’un fine-tuning peut aussi produire des résultats réalistes
- Ce n’est pas seulement un problème de données
  Certains modèles suppriment volontairement le style, ce qui leur donne un rendu artificiel
  Avec les modèles ouverts, on peut ajuster finement via LoRA, mais c’est plus difficile avec les modèles fermés
- La plupart des modèles apprennent sur les données du web entier et produisent donc des résultats moyens prévisibles
  Si l’on veut des images originales, le prompt lui-même doit être plus créatif
- Il reste encore des erreurs subtiles dans les textures, les proportions, l’éclairage, etc.
  C’est pourquoi les fonctions d’édition d’image sont considérées comme le prochain défi
- Les modèles affinés avec retour humain apprennent un « goût moyen » et perdent leur personnalité
  Les premiers modèles avaient une qualité inférieure, mais donnaient des résultats plus intéressants
SynthID est un bon premier pas, mais il a une limite : il ne permet pas de distinguer les contenus IA sans watermark
Les grandes entreprises doivent adopter des identifiants standardisés
- Je pense qu’obliger les watermarks par la loi serait dangereux
  Si Photoshop avait été soumis au même type de régulation, la créativité aurait été fortement limitée
- Apple finira peut-être par lancer une fonction comme « Real Photos »
  Le principe serait de prouver qu’une photo a bien été prise avec un vrai appareil, puis d’afficher un badge de vérification dans iMessage
- Si les entreprises appliquent des watermarks, c’est pour gérer le réentraînement des données
  À terme, les principaux modèles commerciaux finiront probablement par imposer le watermark par défaut
- Si un identifiant standard apparaît, des logiciels pour le supprimer apparaîtront aussi
  Ce sera un éternel jeu du chat et de la souris
- Il existe le projet C2PA qui cherche justement à résoudre ce problème
Les animateurs 2D peuvent encore être rassurés
J’ai essayé de générer une sprite sheet, et le modèle s’est contenté de répéter les frames au lieu de produire une interpolation naturelle entre les mouvements
Compilation de ressources officielles
Developer Blog
Page DeepMind
Model Card PDF
Présentation de SynthID
C’est le premier modèle de génération d’images à réussir mon test du piano
Il répète correctement le motif des touches noires à travers les octaves
Les modèles précédents représentaient toujours mal la disposition des touches
- Mais dès qu’on s’éloigne du standard 88 touches, il fait encore beaucoup d’erreurs
  Même quand on lui demande de colorier une note précise, il répond de manière aléatoire
  Le piano est pourtant un objet standardisé avec probablement beaucoup de données d’entraînement, et malgré cela la compréhension reste insuffisante
- Maintenir un motif répétitif sur une longue portée est difficile
  Le fait d’avoir gardé une cohérence sur l’ensemble des 88 touches est impressionnant
Désormais, les modèles peuvent rendre naturellement du texte à l’intérieur des images
Une capacité qui était autrefois impossible donne maintenant l’impression d’être une base acquise
- Je suis d’accord. Mais dans les zones où le visuel et le code se chevauchent, comme la génération d’icônes, cela reste encore faible
  Pour les courbes, l’espacement et l’équilibre visuel, le travail humain reste meilleur pour l’instant

Nano Banana Pro : le modèle de génération d’images de Google DeepMind basé sur Gemini 3 Pro

Vue d’ensemble de Nano Banana Pro

Fonctionnalités principales

Environnements d’utilisation

Identification des images générées par IA et transparence

Ressources associées

À lire aussi

1 commentaires

Avis Hacker News