Nano Banana 2 Lite

(deepmind.google)

1 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp

Nano Banana 2 Lite, ajouté à la famille Gemini Image de Google DeepMind, est un modèle conçu pour exécuter plus rapidement et à moindre coût la génération et l’édition d’images, avec un accent sur la réduction du coût des tâches visuelles répétitives
Son axe principal est une faible latence et une efficacité économique à grande échelle : il peut générer des milliers d’images à un coût inférieur à celui de modèles de production plus lourds
Côté qualité, il conserve le contrôle et la précision de la famille Nano Banana, tout en prenant en charge la cohérence des personnages, l’édition précise et l’utilisation de connaissances du monde réel
Des exemples comme Space Lift, Gridscape, Peek-A-Word et Anywhere montrent les expériences utilisateur possibles lorsque la génération d’images devient assez rapide pour ne pas interrompre le flux d’une app
Des erreurs peuvent survenir sur les petits visages, l’orthographe exacte, les détails, les résultats fondés sur des données, la traduction et la localisation, ainsi que les éditions et compositions complexes ; les résultats générés doivent donc être vérifiés

Un modèle Gemini Image misant sur la génération rapide et les coûts réduits

Nano Banana 2 Lite est un modèle Gemini Image présenté par Google DeepMind, visant une génération et une édition d’images rapides à faible coût
Ses principaux utilisateurs sont les créateurs, les entreprises et les développeurs, avec des workflows pensés pour explorer rapidement plusieurs idées visuelles
Google DeepMind le présente comme son modèle Gemini Image le plus rapide et le plus efficace à ce jour, offrant génération et édition à grande vitesse au coût le plus bas
Les voies d’accès sont les suivantes
- Google AI Studio
- le mode Flash-Lite de l’app Gemini
- Gemini API
- Gemini Enterprise Agent Platform

Équilibre entre vitesse, coût et qualité

La réduction de la latence est centrale, afin de soutenir l’exploration rapide et les tâches itératives
Pour la génération à grande échelle, il peut créer des milliers d’images à un coût bien inférieur à celui de modèles de production plus lourds
La qualité vise à fournir plus rapidement le contrôle et la précision attendus de Nano Banana
- maintien de la cohérence des personnages
- édition visuelle précise
- utilisation de connaissances du monde réel
Dans les prompts, plus les éléments souhaités — personnages, arrière-plan, ambiance générale, etc. — sont décrits en détail, plus l’image peut se rapprocher de l’intention
Des guides de prompt sont proposés via View prompt guide et Learn how to prompt

Exemples d’apps reposant sur la vitesse de génération d’images

Space Lift est une app qui, lorsqu’on téléverse une photo d’une pièce, génère instantanément divers concepts d’intérieur, du Mid-Century Modern au Bohemian Chic
Gridscape construit, sur un canevas infini, des nœuds d’information composés de texte et d’images créés par Nano Banana 2 Lite et Gemini 3.1 Flash Lite à partir d’une question saisie
- L’utilisateur peut suivre des parcours cliquables pour explorer plus en profondeur les concepts liés
Peek-A-Word transforme le texte sélectionné en supports visuels générés par IA et fournit au même endroit une définition concise et des images contextuelles
- L’accent est mis sur le maintien du flux d’apprentissage sans changer d’onglet
Anywhere est une app interactive de globe terrestre en 3D créée avec Nano Banana 2 Lite
- En joignant une image, elle génère une série de cartes postales personnalisées avec des monuments du monde en arrière-plan
- L’utilisateur peut faire tourner le globe et cliquer sur les photos pour voir des informations sur des destinations de voyage virtuelles

Indicateurs de comparaison et model card

Google DeepMind présente Nano Banana 2 Lite comme son modèle le plus efficace à ce jour, avec un bon équilibre entre qualité et vitesse
Les comparaisons incluent Nano Banana 2, le modèle premium
Les domaines comparés couvrent des éléments de qualité de génération d’images comme le respect du prompt, le rendu des détails et le contrôle
La section performances présente les indicateurs suivants
- Image Editing : score Elo d’édition d’images par rapport aux modèles concurrents selon lmarena.ai
- Image Generation : score Elo de génération d’images par rapport aux modèles concurrents selon lmarena.ai
- Latency per 1k resolution image : latence par image en résolution 1k, basée sur les données d’artificialanalysis.ai
- Price per 1k resolution image : prix par image en résolution 1k
La model card est disponible via View model card

Les possibilités d’usage vues par les partenaires

Figma Weave estime que Nano Banana 2 Lite aide les designers à explorer davantage d’idées et à créer des images originales dans un canevas basé sur des nœuds
Manus AI teste la génération d’images en temps réel pour des présentations et des pages web au sein de workflows autonomes
- Sa vitesse est jugée adaptée aux itérations visuelles rapides des agents IA et à la fourniture de résultats en quelques secondes
- Sa qualité d’image est considérée comme proche de celle de Nano Banana 2 complet
Artlist estime que lorsque la vitesse de génération dépasse ce que l’on imaginait, les utilisateurs peuvent rester dans leurs idées sans attendre l’outil
Weekend indique que, dans le jeu TV à commande vocale Wit’s End, instant-ramen est environ 2,7× plus rapide que Gemini 3.1 Flash Image pour la génération d’images 1k
- Il traite le texte-image, l’édition et la composition multi-images via une seule API drop-in
Latitude estime que la vitesse de génération d’images est importante dans un moteur qui crée le monde pendant que le joueur l’explore, et qu’instant-ramen permet une génération visuelle assez rapide pour suivre l’expérience de jeu

Limites qui nécessitent encore une vérification

Gemini peut créer une grande variété d’images, mais certaines fonctionnalités sont encore en cours d’amélioration, et les images générées doivent être vérifiées manuellement
Sur la fidélité visuelle et textuelle, il peut rencontrer des difficultés avec les petits visages, l’orthographe exacte et les détails de l’image
Sur les données et l’exactitude factuelle, sa connaissance du monde réel est vaste mais pas complète
- Il peut mal interpréter des informations ou produire des résultats inexacts lors de la création d’infographies, de l’annotation de diagrammes ou de représentations de données complexes
- Les sorties fondées sur des données doivent être vérifiées
Pour la traduction et la localisation, il peut générer et traduire du texte dans plusieurs langues, mais rencontrer des difficultés avec la grammaire, l’orthographe, les nuances culturelles et les expressions idiomatiques
Dans les éditions complexes et le blending d’images, l’édition par masque, les grands changements d’éclairage comme transformer le jour en nuit, ou la composition de plusieurs images peuvent produire des résultats peu naturels, des artefacts visuels ou des scènes disjointes
La cohérence des personnages est un point fort, mais elle n’est pas toujours exacte ; Google DeepMind travaille à l’améliorer pour la rendre plus stable

Fonctions de sécurité et précautions d’utilisation

Google DeepMind utilise un filtrage étendu et un étiquetage des données afin de réduire les contenus nuisibles dans les datasets et de diminuer la probabilité de sorties nuisibles
Pour la sécurité des contenus, des évaluations et des opérations de red team sont menées, notamment sur la sécurité et la représentation des enfants
Les images générées intègrent les dernières fonctions de confidentialité et de sécurité, et SynthID insère directement dans l’image un filigrane numérique invisible permettant d’identifier les images générées par IA
Des informations sur SynthID sont disponibles via Learn more
Les LLM comme Gemini 3.1 Flash-Lite Image peuvent fournir des contenus inexacts ou offensants qui ne représentent pas les vues de Google
Il faut faire preuve de prudence lorsque l’on se fie, publie ou utilise des contenus fournis par un LLM, et ne pas s’appuyer dessus pour des conseils professionnels, notamment médicaux, juridiques ou financiers

1 commentaires

GN⁺ 3 시간 전

Avis sur Hacker News

Le premier exemple de génération d’intérieur de maison me déplaît au plus haut point. Aujourd’hui, les agents immobiliers mettent tous les appartements vieillots et invendables dans un filtre IA, si bien qu’avant de voir quel bien horrible ils essaient réellement de vendre à un prix délirant, il faut faire défiler des dizaines d’images montrant « à quoi cela pourrait ressembler si c’était décoré façon Ikea ».
- Je pense que ce genre de chose devrait être considéré comme une présentation mensongère illégale. L’usage de l’IA comporte beaucoup trop de zones grises.
- Pour moi, c’est presque de l’escroquerie. Sur Streeteasy, un appartement donnait l’impression qu’on y avait « mis » un bureau, une commode et un lit queen size, mais il était évident que le modèle d’image avait simplement réduit les meubles à des proportions qui n’existent pas dans la réalité.
  Dans la vraie chambre, on pouvait à peine faire entrer un seul lit queen size ;(
- Je suis d’accord à 100 % : tromper sur l’apparence réelle d’un appartement ne devrait être acceptable ni socialement ni juridiquement. Cela dit, pour la rénovation de ma salle de bains, les modèles d’image m’ont été assez utiles dans mes choix de design.
  C’était particulièrement pratique quand il était difficile d’imaginer soi-même à quoi ressemblerait l’ensemble de l’espace avec du carrelage à certains endroits.
- À NYC, où je vis, publier ce genre d’images retouchées est courant depuis plus de dix ans.
  Avant, il coûtait simplement plus cher d’engager quelqu’un pour faire ce travail.
  Les images retouchées montrent toujours les mêmes murs clairs et les mêmes meubles gris façon magazine.
  L’IA n’a fait que rendre cela moins cher ; au fond, on ne pouvait que finir comme ça.
  Les images retouchées de cette manière comportent tout de même un petit filigrane indiquant qu’elles l’ont été.
- Il suffit déjà d’avoir un bon photographe pour que l’effet soit énorme. Quand un ami vendait sa maison, j’ai été surpris de voir à quel point elle paraissait belle sur les photos de l’annonce, et à quel point elle semblait grande alors que je savais qu’elle ne l’était pas tant que ça.
  Le problème existait déjà avant les filtres IA, donc ce n’est pas nouveau, mais aujourd’hui c’est bien pire et bien moins coûteux.
J’ai obtenu un accès anticipé pour tester ce modèle. C’était dans le cadre du travail, et non, Google ne s’est toujours pas mis à m’apprécier personnellement lol
Il fonctionne comme annoncé ici et, sur des aspects comme un bon rendu du texte, il ressemble à une version distillée de Nano Banana 2. Nano Banana 1 est nettement plus faible sur ce point.
Bien sûr, sur les prompts détaillés, il n’est absolument pas au niveau du Nano Banana 2 de base. Mon principal reproche est qu’avec NB2 on peut imposer le format d’image par programmation, alors qu’avec NB2L ce n’est pas possible.
Cela dit, le prix de 0,034 $ par image est plus élevé que ce à quoi je m’attendais. En général, le prix est lié au temps de génération ; ici il génère en moitié moins de temps que Nano Banana 1, alors que Nano Banana 1 coûte 0,039 $ par image.
L’affirmation de Google selon laquelle les pipelines NB1 peuvent être remplacés directement par NB2L tient la route.
Hier, Google a annoncé l’autorisation de la génération d’images gratuite dans l’app Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), mais n’a pas précisé quel modèle était utilisé. Je pense que la principale motivation de Nano Banana 2 Lite est là.
- Via Vertex, on peut aussi définir par programmation le format d’image dans NB2 Lite [1]. J’ai mis à jour le programme que j’utilise pour créer des images pour GenAI Showdown, changé l’ID du modèle en gemini-3.1-flash-lite-image, et j’ai pu utiliser des formats comme 16:9 et 4:3.
  [1] - https://cloud.google.com/developers/vertex-ai
- Je me demande quel genre de travail nécessite de faire de la génération automatique d’images à grande échelle.
C’est correct, mais ça repose sur l’AI Studio cassé de Google. La moitié des fonctionnalités y nécessitent un compte Google One, donc je ne peux pas les utiliser.
J’ai un compte Workspace, donc je ne suis pas éligible, et je ne peux pas migrer non plus, car Google One ne prend pas en charge les domaines personnalisés.
Donc, pour avoir à la fois une adresse e-mail sympa et Banana, je dois gérer deux comptes et payer en plus ? Je commence à penser que le bon nombre de comptes Google payants ici, c’est zéro.
- J’étais dans une situation similaire. Google doit vraiment améliorer l’expérience utilisateur autour de l’utilisation des modèles et de la facturation.
  Ma solution a été OpenRouter. Dans les chats de développement et de test, on peut générer des images avec les modèles Google, et aussi lancer le même prompt côte à côte avec d’autres modèles. C’est très pratique pour de la génération d’images légère.
- Je suis presque dans le même cas. Je paie à la fois One et Workspace pour un usage personnel, et je ne sais jamais vraiment lequel utiliser pour ce genre de fonctionnalités.
  En général, j’utilise par défaut mon compte personnel, qui dispose de plus de contexte, mais cela ajoute plusieurs étapes pour récupérer des éléments depuis Workspace Drive.
  Et des choses comme Project Genie ne sont tout simplement pas disponibles dans Workspace, ce qui paraît assez étrange.
- C’est un peu de promo assumée, mais burlap permet d’entrer ses clés Gemini Studio ou OpenAI pour tester différentes choses sans toucher à l’interface web. C’est pour ça que je l’ai créé.
  https://www.burlap.app/download
La vitesse est clairement impressionnante. Le NB2 de base prend environ 30 secondes par image, alors que celui-ci semble être à moins de 5 secondes.
J’ai créé une app qui génère des histoires illustrées avec des enfants comme personnages. Je voulais conserver le style des illustrations tout en privilégiant la ressemblance avec les enfants.
J’ai testé plusieurs modèles, mais aucun ne semble s’en approcher autant pour conserver la ressemblance tout en stylisant. Les autres modèles en font des personnages génériques.
J’ai hâte d’intégrer ce modèle à l’onboarding de l’app pour que les utilisateurs aient leur moment « aha » le plus vite possible. Attendre plus de 30 secondes n’est pas idéal.
Cela dit, pour les illustrations finales, je compte toujours utiliser le NB2 de base. Comme d’autres l’ont dit, cette version Lite a encore quelques problèmes de nuance et de cohérence.
- J’ai essayé quelque chose de similaire, mais j’ai eu une erreur indiquant qu’on ne pouvait rien faire en lien avec des enfants. Ça a changé ?
Le tableau comparatif n’inclut pas ChatGPT. Rien que ça, ça en dit long
- Ça mérite d’être relevé. Pour ceux qui ne le savent pas, ChatGPT Image 2 a un ELO absurdement élevé de 1387, soit plus de 100 points au-dessus du modèle en deuxième position, à 1273 (https://arena.ai/leaderboard/text-to-image)
  En revanche, le problème, c’est la latence, et le réglage High de ChatGPT Image 2 est lent, avec environ 2 minutes en 1024x1024
  Dans tous les cas, l’inclure dans ce tableau l’aurait déformé au point de le rendre inutile
  J’aimerais écrire un article sur ChatGPT Image 2, mais les gens semblent désormais ne plus s’intéresser à la génération d’images détaillées. Et ce, même si dans les tests existants, ChatGPT Image 2 écrase tout le reste
C’est assez surprenant que le modèle d’image de Grok batte Nano Banana sur presque toutes les métriques mises en avant ici
- Vraiment ? J’ai raté quelque chose ? D’abord, ça ne me semble pas exact, et les versions non Lite semblent globalement battre Grok
  Ensuite, c’est de toute façon un modèle de génération à bas coût et à gros volume, pas un modèle frontier de pointe, donc il est normal que ses benchmarks soient plus faibles
J’ai bien aimé Nano Banana Pro. Existe-t-il encore des alternatives locales ? J’ai entendu parler de Qwen Image, Klein, et récemment de Krea, mais je me demande ce qui vaut la peine d’être recommandé
- Krea-2 est excellent. Si tu peux accepter une licence restrictive, la vitesse de sortie et le prompting JSON, Ideogram 4 est probablement ce qui se rapproche le plus des modèles de pointe
  Si tu regardes le GenAI Showdown sur mon profil, il y a des benchmarks comparatifs avec des modèles locaux et propriétaires
  En fait, il a obtenu un meilleur score que Gemini 2.5, c’est-à-dire le NB original, ce qui est assez impressionnant
- Krea est bon. Pour des infos sur les modèles publics de pointe, il faut regarder r/StableDiffusion
Je suis très en retard sur la génération d’images, donc je ne m’en sers qu’occasionnellement pour des tokens de roleplay, des blagues ou des assets jetables perso. À mes yeux, c’est complètement dingue
On peut générer une image en environ 2 secondes. Avant, avec ChatGPT, il fallait 30 secondes à 1 minute pour une image de qualité équivalente
Je ne comprends pas les réactions négatives ici
- Cela dit, les détails de ChatGPT sont bien meilleurs. Il peut aussi créer des choses comme une BD complexe en 6 cases que Nano Banana n’arrive pas à égaler
  Et une bonne partie des réactions négatives viennent de gens qui détestent le concept même d’art IA et veulent le voir échouer
- Les usages sont différents.
  Les personnes dont le travail est centré sur l’image elle-même veulent dépenser davantage par image
  En revanche, si l’image fait partie d’un rapport, si c’est un résultat jetable ou si elle va dans une démo, une approche bon marché est préférable
Je me demande comment obtenir quelque chose comme le prototype en temps réel montré dans la section « hands on » de cette page
Sur gemini.g, on peut ajouter un canvas ou utiliser la génération d’images, mais je ne vois pas bien où mettre le prompt « space lift » pour obtenir le résultat de la démo
Waouh, la latence a énormément baissé. À ce niveau-là, ça devrait ouvrir de nouveaux cas d’usage, mais la page liée n’explique pas très clairement les différences entre les modèles
Cela dit, d’après mon expérience personnelle avec des modèles d’image généralistes, je trouve que Google est le meilleur dans mon workflow. Bien sûr, je n’ai pas encore essayé les fournisseurs d’Extrême-Orient
Je suis curieux de savoir ce qu’en pensent les autres

Nano Banana 2 Lite

Un modèle Gemini Image misant sur la génération rapide et les coûts réduits

Équilibre entre vitesse, coût et qualité

Exemples d’apps reposant sur la vitesse de génération d’images

Indicateurs de comparaison et model card

Les possibilités d’usage vues par les partenaires

Limites qui nécessitent encore une vérification

Fonctions de sécurité et précautions d’utilisation

À lire aussi

1 commentaires

Avis sur Hacker News