Nano Banana Pro : le modèle de génération d’images de Google DeepMind basé sur Gemini 3 Pro
(blog.google)- Nano Banana Pro est le tout dernier modèle de génération et d’édition d’images de Google DeepMind, basé sur Gemini 3 Pro, qui permet de concrétiser avec précision des idées visuelles
- Grâce à un rendu de texte amélioré et à la prise en charge multilingue, il peut insérer directement dans l’image des textes lisibles pour des affiches, mockups, infographies, etc.
- Avec la fusion de jusqu’à 14 images, le maintien de la cohérence de 5 personnages et la prise en charge des résolutions 2K à 4K, il facilite la création de contenus visuels de haute qualité
- Il est intégré à divers produits Google comme Google Ads, Workspace, l’app Gemini et AI Studio, ce qui le rend exploitable par les consommateurs, les professionnels et les développeurs
- Le filigrane SynthID garantit la transparence des images générées par IA, et une fonction d’identification des contenus IA est directement proposée dans l’app Gemini
Vue d’ensemble de Nano Banana Pro
- Nano Banana Pro est un modèle qui exploite les capacités de raisonnement et les connaissances du monde de Gemini 3 Pro pour visualiser avec finesse des informations visuelles
- Il s’agit d’une version améliorée lancée après la version précédente, Nano Banana (Gemini 2.5 Flash Image)
- Il prend en charge divers travaux de design comme l’idéation, la visualisation de données ou la transformation de notes manuscrites en diagrammes
Fonctionnalités principales
- Génération de visuels précis et riches en contexte
- Les fonctions avancées de raisonnement de Gemini 3 permettent de produire des contenus factuels comme des infographies pédagogiques ou des diagrammes
- Connecté aux informations en temps réel de Google Search, il peut visualiser des données en direct comme la météo, le sport ou des recettes
- Rendu de texte multilingue
- Le texte dans les images est restitué avec précision et de manière lisible, avec possibilité de traduction et de localisation dans plusieurs langues
- Il convient à la création d’affiches ou de contenus de marque grâce à l’usage de polices, textures et styles typographiques variés
- Rendu visuel de haute qualité
- Il permet de créer des images composites complexes avec la fusion de jusqu’à 14 images et le maintien de la cohérence de 5 personnages
- Il offre un contrôle fin de l’édition, comme la retouche locale, l’ajustement de l’angle de caméra, la correction des couleurs et le changement d’éclairage
- Il prend en charge les résolutions 2K et 4K ainsi que différents formats d’image, pour l’impression comme pour les plateformes numériques
Environnements d’utilisation
- Pour les consommateurs et les étudiants
- Nano Banana Pro est disponible via la fonction « Create images » de l’app Gemini
- Les utilisateurs gratuits disposent d’un volume de génération limité, puis basculent vers la version Nano Banana de base
- Les abonnés à Google AI Plus, Pro et Ultra bénéficient de limites de génération plus élevées
- Pour les professionnels
- La fonction de génération d’images de Google Ads a été mise à niveau avec Nano Banana Pro
- Il est également disponible dans Slides et Vids de Google Workspace
- Pour les développeurs et les entreprises
- La prise en charge est étendue via la Gemini API, Google AI Studio, Vertex AI, Antigravity et Gemini Enterprise
- Pour les créateurs
- L’outil Flow permet aux vidéastes et aux marketeurs d’exercer un contrôle précis scène par scène
Identification des images générées par IA et transparence
- Toutes les images générées par Nano Banana Pro intègrent un filigrane numérique SynthID, ce qui permet d’en identifier l’origine
- Dans l’app Gemini, il est possible d’importer une image pour vérifier directement si elle a été « générée par l’IA de Google »
- Les images des utilisateurs gratuits et Pro reçoivent aussi un filigrane visible (Gemini sparkle)
- Les abonnés Ultra et les outils développeur d’AI Studio disposent d’un canevas propre sans filigrane
- SynthID devrait à l’avenir être étendu aux contenus audio et vidéo
Ressources associées
- Build with Nano Banana Pro : présentation du modèle Gemini 3 Pro Image pour les développeurs
- Prompting Tips for Nano Banana Pro : guide pour rédiger des prompts efficaces
- AI Image Verification in Gemini App : explication de la fonction de vérification d’images basée sur SynthID
Aucune information supplémentaire dans la source originale
1 commentaires
Avis Hacker News
Cette semaine, Google donnait l’impression de bouger comme Godzilla
J’ai essayé pour la première fois de connecter une carte à AI Studio, et le processus de paiement était beaucoup trop compliqué
Même après avoir tout configuré, j’avais toujours l’erreur « permission denied »
S’il faut aller aussi loin juste pour payer, peu importe la qualité du modèle, ça n’en vaut pas la peine
L’équipe travaille d’arrache-pied pour améliorer l’accessibilité
Un système de paiement intégré à AI Studio est en préparation pour réduire les frictions liées au paiement, avec un lancement mondial prévu en janvier
Ailleurs, une simple clé API suffit, alors que chez Google il faut créer un compte → créer une application → activer le service → créer une application OAuth → télécharger le JSON
L’inscription est bien plus simple et le service propose divers modèles d’IA
Créer un projet GCP juste pour faire un test, c’est excessif
J’ai retesté tous les prompts liés à l’édition avec Nano Banana Pro
Il a passé les tests SHRDLU, M&M Van Halen et Scorpio Street
Les résultats sont visibles ici
NB Pro a clairement montré de meilleures performances que le NB d’origine
Le test lui-même ne semblait pas très pertinent
Le résultat n’est pas parfait, mais il a bien fait ce qui était demandé
Il réussit les prompts qui demandent des connaissances explicites, mais redresser simplement un objet incliné reste difficile
Montrer l’original et le résultat côte à côte serait sans doute plus intuitif qu’un slider
J’ai mené pendant plusieurs mois une analyse de prompt engineering de Nano Banana, et Google a sorti une nouvelle version
Le nouveau modèle fonctionne directement dans le package gemimg
En revanche, son prix est trop élevé pour en faire le modèle par défaut
D’après la documentation, le modèle génère jusqu’à deux images intermédiaires (étape Thinking)
C’est peut-être ce qui explique la hausse du coût
Le modèle interprète gauche et droite du point de vue de l’observateur, et les place donc au mauvais endroit
Ce type d’erreur sur des consignes relatives est aussi fréquent en milieu médical
Lien vers l’exemple correspondant
La plupart des prompts fonctionnent aussi bien avec NB Pro
Lien du guide
J’ai aussi partagé mes résultats d’expérimentation
La « transformation en style Studio Ghibli » est bien plus fidèle que dans ChatGPT
En revanche, des images trop réalistes tombent parfois dans l’uncanny valley
Cela m’a rappelé à quel point il est important de concevoir des outils adaptables capables de suivre les évolutions techniques
La capacité à générer une infographie complète à partir d’un prompt court est impressionnante
J’ai demandé « comment fonctionne le projet Datasette » et j’ai obtenu un résultat très abouti
Lien vers le résultat
Aujourd’hui, le texte était rendu séparément, mais il semble désormais possible de tout faire en une seule passe
Voir cette image de résultat
Lien GitHub
Il convertit même automatiquement au format carré pour Instagram
Les images IA ne produisent plus d’artefacts manifestes, mais elles restent encore identifiables comme de l’IA à cause du style
Les infographies, en particulier, restaient distinguables de celles faites par des humains
Cela semble être le résultat d’une surreprésentation de certains jeux de données
Les modèles entraînés sur des moyennes créent un « espace d’image moyen »
Cet exemple connexe montre qu’un fine-tuning peut aussi produire des résultats réalistes
Certains modèles suppriment volontairement le style, ce qui leur donne un rendu artificiel
Avec les modèles ouverts, on peut ajuster finement via LoRA, mais c’est plus difficile avec les modèles fermés
Si l’on veut des images originales, le prompt lui-même doit être plus créatif
C’est pourquoi les fonctions d’édition d’image sont considérées comme le prochain défi
Les premiers modèles avaient une qualité inférieure, mais donnaient des résultats plus intéressants
SynthID est un bon premier pas, mais il a une limite : il ne permet pas de distinguer les contenus IA sans watermark
Les grandes entreprises doivent adopter des identifiants standardisés
Si Photoshop avait été soumis au même type de régulation, la créativité aurait été fortement limitée
Le principe serait de prouver qu’une photo a bien été prise avec un vrai appareil, puis d’afficher un badge de vérification dans iMessage
À terme, les principaux modèles commerciaux finiront probablement par imposer le watermark par défaut
Ce sera un éternel jeu du chat et de la souris
Les animateurs 2D peuvent encore être rassurés
J’ai essayé de générer une sprite sheet, et le modèle s’est contenté de répéter les frames au lieu de produire une interpolation naturelle entre les mouvements
Compilation de ressources officielles
Developer Blog
Page DeepMind
Model Card PDF
Présentation de SynthID
C’est le premier modèle de génération d’images à réussir mon test du piano
Il répète correctement le motif des touches noires à travers les octaves
Les modèles précédents représentaient toujours mal la disposition des touches
Même quand on lui demande de colorier une note précise, il répond de manière aléatoire
Le piano est pourtant un objet standardisé avec probablement beaucoup de données d’entraînement, et malgré cela la compréhension reste insuffisante
Le fait d’avoir gardé une cohérence sur l’ensemble des 88 touches est impressionnant
Désormais, les modèles peuvent rendre naturellement du texte à l’intérieur des images
Une capacité qui était autrefois impossible donne maintenant l’impression d’être une base acquise
Pour les courbes, l’espacement et l’équilibre visuel, le travail humain reste meilleur pour l’instant