- Google a dévoilé Gemini 2.5 Flash Image, connu sous le nom de Nano-Banana, avec des capacités de génération et d’édition d’images nettement renforcées
- Le modèle prend en charge la cohérence des personnages, l’édition partielle à partir du langage naturel, l’exploitation des connaissances du monde et la fusion de plusieurs images
- Les développeurs peuvent l’utiliser immédiatement via Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai, etc.
- Le tarif est de 30 dollars par million de tokens de sortie, soit environ 0,039 dollar par image
- Tous les résultats intègrent un filigrane numérique SynthID invisible
Présentation de Gemini 2.5 Flash Image
- Google a annoncé Gemini 2.5 Flash Image (nom de code nano-banana), son modèle de nouvelle génération de génération et d’édition d’images
- Cette mise à jour permet de composer plusieurs images en une seule, de maintenir la cohérence d’une personne ou d’un objet donné, d’appliquer des transformations fines à l’aide du langage naturel et de générer ou modifier des images en s’appuyant sur les connaissances du monde de Gemini
- La première version, Gemini 2.0 Flash, se distinguait déjà par sa faible latence, son efficacité en termes de coût et sa facilité d’usage, mais cette fois, en intégrant les retours des utilisateurs, Google ajoute des images de meilleure qualité et des capacités de contrôle créatif renforcées
- Le modèle est désormais disponible via Gemini API, Google AI Studio et Vertex AI, avec une tarification fixée à 30 $ par million de tokens de sortie (environ 0,039 $ par image)
- Les autres modes d’entrée et de sortie suivent également la même politique tarifaire que Gemini 2.5 Flash
- Site officiel : https://deepmind.google/models/gemini/image/
Principales fonctionnalités et scénarios
-
Mise à niveau du « Build Mode » de Google AI Studio
- Gemini 2.5 Flash Image rend le développement d’applications plus simple
- Les développeurs peuvent créer, tester et remixer rapidement des applications IA personnalisées, puis les déployer directement depuis Google AI Studio ou enregistrer le code sur GitHub
- Par exemple, il est possible de créer facilement une application à partir d’un prompt comme « créer une application d’édition d’images permettant aux utilisateurs d’importer une image et d’appliquer des filtres »
- La sélection et le remix de modèles fournis par défaut sont également proposés gratuitement
-
Cohérence des personnages
- Maintenir l’apparence d’un même personnage au fil du processus de génération d’image a longtemps constitué un défi majeur
- Gemini 2.5 Flash Image peut être utilisé efficacement pour placer la même personne dans divers environnements, représenter un produit sous plusieurs angles ou dans plusieurs lieux, et garantir la cohérence des assets de marque
- L’application modèle de Google AI Studio facilite la démonstration de cette cohérence des personnages ainsi que la personnalisation du code
- Cette fonction peut aussi s’appliquer à la cohérence de design fondée sur des modèles, comme pour des fiches immobilières, des badges employés ou des mockups produits en masse
-
Édition d’images à partir de prompts en langage naturel
- Les utilisateurs peuvent modifier certaines parties d’une image uniquement à l’aide d’instructions en langage naturel
- Parmi les exemples : flou d’arrière-plan, suppression d’une tache sur un t-shirt, retrait d’une personne, changement de pose ou conversion d’une image en noir et blanc en image couleur
- Une application modèle permettant une édition via interface utilisateur ou prompts est fournie afin de permettre une expérience concrète
-
Exploitation native fondée sur les connaissances du monde
- Alors que les modèles précédents excellaient dans la génération d’images esthétiques, leur compréhension sémantique du monde réel restait limitée
- Gemini 2.5 Flash Image s’appuie sur ses connaissances du monde pour reconnaître des diagrammes dessinés à la main, répondre à des questions sur le monde réel et exécuter des commandes d’édition complexes
- Comme exemple concret, une application est proposée pour transformer un simple canevas en tuteur pédagogique interactif
-
Fusion multi-images
- Ce modèle peut comprendre plusieurs images et les combiner naturellement
- Il permet par exemple d’insérer un produit dans un nouvel arrière-plan, de modifier la tonalité de couleur et la texture d’une pièce entière, ou encore de fusionner des images à partir d’un seul prompt
- Grâce à une application modèle, il est possible de placer des produits par glisser-déposer et de générer des images fusionnées photoréalistes
Prise en main et partenariats
- Il est possible de commencer immédiatement via la documentation développeur ; le modèle est actuellement en préversion mais devrait bientôt être stabilisé
- Toutes les applications de démonstration peuvent être remixées et personnalisées au niveau du code dans Google AI Studio
- En partenariat avec OpenRouter.ai, Google met le modèle à disposition de 3 millions de développeurs ; c’est le premier modèle capable de générer des images parmi les plus de 480 modèles pris en charge par OpenRouter
- La collaboration avec fal.ai étend également sa disponibilité à une communauté de développeurs plus large
Filigrane numérique et retours
- Toutes les images générées ou modifiées avec Gemini 2.5 Flash Image intègrent un filigrane numérique SynthID invisible, permettant de détecter qu’il s’agit de contenus générés par IA
- Des améliorations continues sont en cours sur la qualité du texte, la cohérence des personnages et le niveau de détail des images
- Les retours des développeurs sont recueillis en continu via le forum développeur de Google ou X (anciennement Twitter)
Exemple simple d’utilisation (code Python)
- En Python, il est possible d’utiliser Gemini 2.5 Flash Image avec le SDK genai ainsi que les bibliothèques PIL et io, en fournissant le prompt et l’image souhaités
- Exemple : application d’un prompt libre comme « mon chat en train de manger une nano-banana dans un restaurant »
- Les résultats peuvent être enregistrés directement dans le code, à la fois sous forme de texte simple et de fichiers image
Orientation des développements futurs
- Le développement se poursuit pour améliorer en continu le rendu de textes longs, la fiabilité de la cohérence des personnages et l’expression de détails réalistes
- Participation active de la communauté et encouragement des retours
- Gemini 2.5 Flash Image devrait élargir les possibilités de création et d’expériences de développement
2 commentaires
Qu'est-ce que Google Nano Banana ? L'IA secrète de Google pour l'image
Avis Hacker News