Nano Banana 2 Lite
(deepmind.google)- Nano Banana 2 Lite, ajouté à la famille Gemini Image de Google DeepMind, est un modèle conçu pour exécuter plus rapidement et à moindre coût la génération et l’édition d’images, avec un accent sur la réduction du coût des tâches visuelles répétitives
- Son axe principal est une faible latence et une efficacité économique à grande échelle : il peut générer des milliers d’images à un coût inférieur à celui de modèles de production plus lourds
- Côté qualité, il conserve le contrôle et la précision de la famille Nano Banana, tout en prenant en charge la cohérence des personnages, l’édition précise et l’utilisation de connaissances du monde réel
- Des exemples comme Space Lift, Gridscape, Peek-A-Word et Anywhere montrent les expériences utilisateur possibles lorsque la génération d’images devient assez rapide pour ne pas interrompre le flux d’une app
- Des erreurs peuvent survenir sur les petits visages, l’orthographe exacte, les détails, les résultats fondés sur des données, la traduction et la localisation, ainsi que les éditions et compositions complexes ; les résultats générés doivent donc être vérifiés
Un modèle Gemini Image misant sur la génération rapide et les coûts réduits
- Nano Banana 2 Lite est un modèle Gemini Image présenté par Google DeepMind, visant une génération et une édition d’images rapides à faible coût
- Ses principaux utilisateurs sont les créateurs, les entreprises et les développeurs, avec des workflows pensés pour explorer rapidement plusieurs idées visuelles
- Google DeepMind le présente comme son modèle Gemini Image le plus rapide et le plus efficace à ce jour, offrant génération et édition à grande vitesse au coût le plus bas
- Les voies d’accès sont les suivantes
- Google AI Studio
- le mode Flash-Lite de l’app Gemini
- Gemini API
- Gemini Enterprise Agent Platform
Équilibre entre vitesse, coût et qualité
- La réduction de la latence est centrale, afin de soutenir l’exploration rapide et les tâches itératives
- Pour la génération à grande échelle, il peut créer des milliers d’images à un coût bien inférieur à celui de modèles de production plus lourds
- La qualité vise à fournir plus rapidement le contrôle et la précision attendus de Nano Banana
- maintien de la cohérence des personnages
- édition visuelle précise
- utilisation de connaissances du monde réel
- Dans les prompts, plus les éléments souhaités — personnages, arrière-plan, ambiance générale, etc. — sont décrits en détail, plus l’image peut se rapprocher de l’intention
- Des guides de prompt sont proposés via View prompt guide et Learn how to prompt
Exemples d’apps reposant sur la vitesse de génération d’images
- Space Lift est une app qui, lorsqu’on téléverse une photo d’une pièce, génère instantanément divers concepts d’intérieur, du Mid-Century Modern au Bohemian Chic
- Gridscape construit, sur un canevas infini, des nœuds d’information composés de texte et d’images créés par Nano Banana 2 Lite et Gemini 3.1 Flash Lite à partir d’une question saisie
- L’utilisateur peut suivre des parcours cliquables pour explorer plus en profondeur les concepts liés
- Peek-A-Word transforme le texte sélectionné en supports visuels générés par IA et fournit au même endroit une définition concise et des images contextuelles
- L’accent est mis sur le maintien du flux d’apprentissage sans changer d’onglet
- Anywhere est une app interactive de globe terrestre en 3D créée avec Nano Banana 2 Lite
- En joignant une image, elle génère une série de cartes postales personnalisées avec des monuments du monde en arrière-plan
- L’utilisateur peut faire tourner le globe et cliquer sur les photos pour voir des informations sur des destinations de voyage virtuelles
Indicateurs de comparaison et model card
- Google DeepMind présente Nano Banana 2 Lite comme son modèle le plus efficace à ce jour, avec un bon équilibre entre qualité et vitesse
- Les comparaisons incluent Nano Banana 2, le modèle premium
- Les domaines comparés couvrent des éléments de qualité de génération d’images comme le respect du prompt, le rendu des détails et le contrôle
- La section performances présente les indicateurs suivants
- Image Editing : score Elo d’édition d’images par rapport aux modèles concurrents selon lmarena.ai
- Image Generation : score Elo de génération d’images par rapport aux modèles concurrents selon lmarena.ai
- Latency per 1k resolution image : latence par image en résolution 1k, basée sur les données d’artificialanalysis.ai
- Price per 1k resolution image : prix par image en résolution 1k
- La model card est disponible via View model card
Les possibilités d’usage vues par les partenaires
- Figma Weave estime que Nano Banana 2 Lite aide les designers à explorer davantage d’idées et à créer des images originales dans un canevas basé sur des nœuds
- Manus AI teste la génération d’images en temps réel pour des présentations et des pages web au sein de workflows autonomes
- Sa vitesse est jugée adaptée aux itérations visuelles rapides des agents IA et à la fourniture de résultats en quelques secondes
- Sa qualité d’image est considérée comme proche de celle de Nano Banana 2 complet
- Artlist estime que lorsque la vitesse de génération dépasse ce que l’on imaginait, les utilisateurs peuvent rester dans leurs idées sans attendre l’outil
- Weekend indique que, dans le jeu TV à commande vocale Wit’s End, instant-ramen est environ 2,7× plus rapide que Gemini 3.1 Flash Image pour la génération d’images 1k
- Il traite le texte-image, l’édition et la composition multi-images via une seule API drop-in
- Latitude estime que la vitesse de génération d’images est importante dans un moteur qui crée le monde pendant que le joueur l’explore, et qu’instant-ramen permet une génération visuelle assez rapide pour suivre l’expérience de jeu
Limites qui nécessitent encore une vérification
- Gemini peut créer une grande variété d’images, mais certaines fonctionnalités sont encore en cours d’amélioration, et les images générées doivent être vérifiées manuellement
- Sur la fidélité visuelle et textuelle, il peut rencontrer des difficultés avec les petits visages, l’orthographe exacte et les détails de l’image
- Sur les données et l’exactitude factuelle, sa connaissance du monde réel est vaste mais pas complète
- Il peut mal interpréter des informations ou produire des résultats inexacts lors de la création d’infographies, de l’annotation de diagrammes ou de représentations de données complexes
- Les sorties fondées sur des données doivent être vérifiées
- Pour la traduction et la localisation, il peut générer et traduire du texte dans plusieurs langues, mais rencontrer des difficultés avec la grammaire, l’orthographe, les nuances culturelles et les expressions idiomatiques
- Dans les éditions complexes et le blending d’images, l’édition par masque, les grands changements d’éclairage comme transformer le jour en nuit, ou la composition de plusieurs images peuvent produire des résultats peu naturels, des artefacts visuels ou des scènes disjointes
- La cohérence des personnages est un point fort, mais elle n’est pas toujours exacte ; Google DeepMind travaille à l’améliorer pour la rendre plus stable
Fonctions de sécurité et précautions d’utilisation
- Google DeepMind utilise un filtrage étendu et un étiquetage des données afin de réduire les contenus nuisibles dans les datasets et de diminuer la probabilité de sorties nuisibles
- Pour la sécurité des contenus, des évaluations et des opérations de red team sont menées, notamment sur la sécurité et la représentation des enfants
- Les images générées intègrent les dernières fonctions de confidentialité et de sécurité, et SynthID insère directement dans l’image un filigrane numérique invisible permettant d’identifier les images générées par IA
- Des informations sur SynthID sont disponibles via Learn more
- Les LLM comme Gemini 3.1 Flash-Lite Image peuvent fournir des contenus inexacts ou offensants qui ne représentent pas les vues de Google
- Il faut faire preuve de prudence lorsque l’on se fie, publie ou utilise des contenus fournis par un LLM, et ne pas s’appuyer dessus pour des conseils professionnels, notamment médicaux, juridiques ou financiers
1 commentaires
Avis sur Hacker News
Le premier exemple de génération d’intérieur de maison me déplaît au plus haut point. Aujourd’hui, les agents immobiliers mettent tous les appartements vieillots et invendables dans un filtre IA, si bien qu’avant de voir quel bien horrible ils essaient réellement de vendre à un prix délirant, il faut faire défiler des dizaines d’images montrant « à quoi cela pourrait ressembler si c’était décoré façon Ikea ».
Dans la vraie chambre, on pouvait à peine faire entrer un seul lit queen size ;(
C’était particulièrement pratique quand il était difficile d’imaginer soi-même à quoi ressemblerait l’ensemble de l’espace avec du carrelage à certains endroits.
Avant, il coûtait simplement plus cher d’engager quelqu’un pour faire ce travail.
Les images retouchées montrent toujours les mêmes murs clairs et les mêmes meubles gris façon magazine.
L’IA n’a fait que rendre cela moins cher ; au fond, on ne pouvait que finir comme ça.
Les images retouchées de cette manière comportent tout de même un petit filigrane indiquant qu’elles l’ont été.
Le problème existait déjà avant les filtres IA, donc ce n’est pas nouveau, mais aujourd’hui c’est bien pire et bien moins coûteux.
J’ai obtenu un accès anticipé pour tester ce modèle. C’était dans le cadre du travail, et non, Google ne s’est toujours pas mis à m’apprécier personnellement lol
Il fonctionne comme annoncé ici et, sur des aspects comme un bon rendu du texte, il ressemble à une version distillée de Nano Banana 2. Nano Banana 1 est nettement plus faible sur ce point.
Bien sûr, sur les prompts détaillés, il n’est absolument pas au niveau du Nano Banana 2 de base. Mon principal reproche est qu’avec NB2 on peut imposer le format d’image par programmation, alors qu’avec NB2L ce n’est pas possible.
Cela dit, le prix de 0,034 $ par image est plus élevé que ce à quoi je m’attendais. En général, le prix est lié au temps de génération ; ici il génère en moitié moins de temps que Nano Banana 1, alors que Nano Banana 1 coûte 0,039 $ par image.
L’affirmation de Google selon laquelle les pipelines NB1 peuvent être remplacés directement par NB2L tient la route.
Hier, Google a annoncé l’autorisation de la génération d’images gratuite dans l’app Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), mais n’a pas précisé quel modèle était utilisé. Je pense que la principale motivation de Nano Banana 2 Lite est là.
gemini-3.1-flash-lite-image, et j’ai pu utiliser des formats comme 16:9 et 4:3.[1] - https://cloud.google.com/developers/vertex-ai
C’est correct, mais ça repose sur l’AI Studio cassé de Google. La moitié des fonctionnalités y nécessitent un compte Google One, donc je ne peux pas les utiliser.
J’ai un compte Workspace, donc je ne suis pas éligible, et je ne peux pas migrer non plus, car Google One ne prend pas en charge les domaines personnalisés.
Donc, pour avoir à la fois une adresse e-mail sympa et Banana, je dois gérer deux comptes et payer en plus ? Je commence à penser que le bon nombre de comptes Google payants ici, c’est zéro.
Ma solution a été OpenRouter. Dans les chats de développement et de test, on peut générer des images avec les modèles Google, et aussi lancer le même prompt côte à côte avec d’autres modèles. C’est très pratique pour de la génération d’images légère.
En général, j’utilise par défaut mon compte personnel, qui dispose de plus de contexte, mais cela ajoute plusieurs étapes pour récupérer des éléments depuis Workspace Drive.
Et des choses comme Project Genie ne sont tout simplement pas disponibles dans Workspace, ce qui paraît assez étrange.
https://www.burlap.app/download
La vitesse est clairement impressionnante. Le NB2 de base prend environ 30 secondes par image, alors que celui-ci semble être à moins de 5 secondes.
J’ai créé une app qui génère des histoires illustrées avec des enfants comme personnages. Je voulais conserver le style des illustrations tout en privilégiant la ressemblance avec les enfants.
J’ai testé plusieurs modèles, mais aucun ne semble s’en approcher autant pour conserver la ressemblance tout en stylisant. Les autres modèles en font des personnages génériques.
J’ai hâte d’intégrer ce modèle à l’onboarding de l’app pour que les utilisateurs aient leur moment « aha » le plus vite possible. Attendre plus de 30 secondes n’est pas idéal.
Cela dit, pour les illustrations finales, je compte toujours utiliser le NB2 de base. Comme d’autres l’ont dit, cette version Lite a encore quelques problèmes de nuance et de cohérence.
Le tableau comparatif n’inclut pas ChatGPT. Rien que ça, ça en dit long
En revanche, le problème, c’est la latence, et le réglage High de ChatGPT Image 2 est lent, avec environ 2 minutes en 1024x1024
Dans tous les cas, l’inclure dans ce tableau l’aurait déformé au point de le rendre inutile
J’aimerais écrire un article sur ChatGPT Image 2, mais les gens semblent désormais ne plus s’intéresser à la génération d’images détaillées. Et ce, même si dans les tests existants, ChatGPT Image 2 écrase tout le reste
C’est assez surprenant que le modèle d’image de Grok batte Nano Banana sur presque toutes les métriques mises en avant ici
Ensuite, c’est de toute façon un modèle de génération à bas coût et à gros volume, pas un modèle frontier de pointe, donc il est normal que ses benchmarks soient plus faibles
J’ai bien aimé Nano Banana Pro. Existe-t-il encore des alternatives locales ? J’ai entendu parler de Qwen Image, Klein, et récemment de Krea, mais je me demande ce qui vaut la peine d’être recommandé
Si tu regardes le GenAI Showdown sur mon profil, il y a des benchmarks comparatifs avec des modèles locaux et propriétaires
En fait, il a obtenu un meilleur score que Gemini 2.5, c’est-à-dire le NB original, ce qui est assez impressionnant
Je suis très en retard sur la génération d’images, donc je ne m’en sers qu’occasionnellement pour des tokens de roleplay, des blagues ou des assets jetables perso. À mes yeux, c’est complètement dingue
On peut générer une image en environ 2 secondes. Avant, avec ChatGPT, il fallait 30 secondes à 1 minute pour une image de qualité équivalente
Je ne comprends pas les réactions négatives ici
Et une bonne partie des réactions négatives viennent de gens qui détestent le concept même d’art IA et veulent le voir échouer
Les personnes dont le travail est centré sur l’image elle-même veulent dépenser davantage par image
En revanche, si l’image fait partie d’un rapport, si c’est un résultat jetable ou si elle va dans une démo, une approche bon marché est préférable
Je me demande comment obtenir quelque chose comme le prototype en temps réel montré dans la section « hands on » de cette page
Sur gemini.g, on peut ajouter un canvas ou utiliser la génération d’images, mais je ne vois pas bien où mettre le prompt « space lift » pour obtenir le résultat de la démo
Waouh, la latence a énormément baissé. À ce niveau-là, ça devrait ouvrir de nouveaux cas d’usage, mais la page liée n’explique pas très clairement les différences entre les modèles
Cela dit, d’après mon expérience personnelle avec des modèles d’image généralistes, je trouve que Google est le meilleur dans mon workflow. Bien sûr, je n’ai pas encore essayé les fournisseurs d’Extrême-Orient
Je suis curieux de savoir ce qu’en pensent les autres