10 points par GN⁺ 2025-08-27 | 2 commentaires | Partager sur WhatsApp
  • Google a dévoilé Gemini 2.5 Flash Image, connu sous le nom de Nano-Banana, avec des capacités de génération et d’édition d’images nettement renforcées
  • Le modèle prend en charge la cohérence des personnages, l’édition partielle à partir du langage naturel, l’exploitation des connaissances du monde et la fusion de plusieurs images
  • Les développeurs peuvent l’utiliser immédiatement via Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai, etc.
  • Le tarif est de 30 dollars par million de tokens de sortie, soit environ 0,039 dollar par image
  • Tous les résultats intègrent un filigrane numérique SynthID invisible

Présentation de Gemini 2.5 Flash Image

  • Google a annoncé Gemini 2.5 Flash Image (nom de code nano-banana), son modèle de nouvelle génération de génération et d’édition d’images
  • Cette mise à jour permet de composer plusieurs images en une seule, de maintenir la cohérence d’une personne ou d’un objet donné, d’appliquer des transformations fines à l’aide du langage naturel et de générer ou modifier des images en s’appuyant sur les connaissances du monde de Gemini
  • La première version, Gemini 2.0 Flash, se distinguait déjà par sa faible latence, son efficacité en termes de coût et sa facilité d’usage, mais cette fois, en intégrant les retours des utilisateurs, Google ajoute des images de meilleure qualité et des capacités de contrôle créatif renforcées
  • Le modèle est désormais disponible via Gemini API, Google AI Studio et Vertex AI, avec une tarification fixée à 30 $ par million de tokens de sortie (environ 0,039 $ par image)
  • Les autres modes d’entrée et de sortie suivent également la même politique tarifaire que Gemini 2.5 Flash
  • Site officiel : https://deepmind.google/models/gemini/image/

Principales fonctionnalités et scénarios

  • Mise à niveau du « Build Mode » de Google AI Studio

    • Gemini 2.5 Flash Image rend le développement d’applications plus simple
    • Les développeurs peuvent créer, tester et remixer rapidement des applications IA personnalisées, puis les déployer directement depuis Google AI Studio ou enregistrer le code sur GitHub
    • Par exemple, il est possible de créer facilement une application à partir d’un prompt comme « créer une application d’édition d’images permettant aux utilisateurs d’importer une image et d’appliquer des filtres »
    • La sélection et le remix de modèles fournis par défaut sont également proposés gratuitement
  • Cohérence des personnages

    • Maintenir l’apparence d’un même personnage au fil du processus de génération d’image a longtemps constitué un défi majeur
    • Gemini 2.5 Flash Image peut être utilisé efficacement pour placer la même personne dans divers environnements, représenter un produit sous plusieurs angles ou dans plusieurs lieux, et garantir la cohérence des assets de marque
    • L’application modèle de Google AI Studio facilite la démonstration de cette cohérence des personnages ainsi que la personnalisation du code
    • Cette fonction peut aussi s’appliquer à la cohérence de design fondée sur des modèles, comme pour des fiches immobilières, des badges employés ou des mockups produits en masse
  • Édition d’images à partir de prompts en langage naturel

    • Les utilisateurs peuvent modifier certaines parties d’une image uniquement à l’aide d’instructions en langage naturel
    • Parmi les exemples : flou d’arrière-plan, suppression d’une tache sur un t-shirt, retrait d’une personne, changement de pose ou conversion d’une image en noir et blanc en image couleur
    • Une application modèle permettant une édition via interface utilisateur ou prompts est fournie afin de permettre une expérience concrète
  • Exploitation native fondée sur les connaissances du monde

    • Alors que les modèles précédents excellaient dans la génération d’images esthétiques, leur compréhension sémantique du monde réel restait limitée
    • Gemini 2.5 Flash Image s’appuie sur ses connaissances du monde pour reconnaître des diagrammes dessinés à la main, répondre à des questions sur le monde réel et exécuter des commandes d’édition complexes
    • Comme exemple concret, une application est proposée pour transformer un simple canevas en tuteur pédagogique interactif
  • Fusion multi-images

    • Ce modèle peut comprendre plusieurs images et les combiner naturellement
    • Il permet par exemple d’insérer un produit dans un nouvel arrière-plan, de modifier la tonalité de couleur et la texture d’une pièce entière, ou encore de fusionner des images à partir d’un seul prompt
    • Grâce à une application modèle, il est possible de placer des produits par glisser-déposer et de générer des images fusionnées photoréalistes

Prise en main et partenariats

  • Il est possible de commencer immédiatement via la documentation développeur ; le modèle est actuellement en préversion mais devrait bientôt être stabilisé
  • Toutes les applications de démonstration peuvent être remixées et personnalisées au niveau du code dans Google AI Studio
  • En partenariat avec OpenRouter.ai, Google met le modèle à disposition de 3 millions de développeurs ; c’est le premier modèle capable de générer des images parmi les plus de 480 modèles pris en charge par OpenRouter
  • La collaboration avec fal.ai étend également sa disponibilité à une communauté de développeurs plus large

Filigrane numérique et retours

  • Toutes les images générées ou modifiées avec Gemini 2.5 Flash Image intègrent un filigrane numérique SynthID invisible, permettant de détecter qu’il s’agit de contenus générés par IA
  • Des améliorations continues sont en cours sur la qualité du texte, la cohérence des personnages et le niveau de détail des images
  • Les retours des développeurs sont recueillis en continu via le forum développeur de Google ou X (anciennement Twitter)

Exemple simple d’utilisation (code Python)

  • En Python, il est possible d’utiliser Gemini 2.5 Flash Image avec le SDK genai ainsi que les bibliothèques PIL et io, en fournissant le prompt et l’image souhaités
  • Exemple : application d’un prompt libre comme « mon chat en train de manger une nano-banana dans un restaurant »
  • Les résultats peuvent être enregistrés directement dans le code, à la fois sous forme de texte simple et de fichiers image

Orientation des développements futurs

  • Le développement se poursuit pour améliorer en continu le rendu de textes longs, la fiabilité de la cohérence des personnages et l’expression de détails réalistes
  • Participation active de la communauté et encouragement des retours
  • Gemini 2.5 Flash Image devrait élargir les possibilités de création et d’expériences de développement

2 commentaires

 
GN⁺ 2025-08-27
Avis Hacker News
  • On dirait le moment GPT-4 des modèles d’édition d’images. Voir des résultats impressionnants sur Twitter
    • nano banana, c’est-à-dire gemini 2.5 flash, est tellement performant qu’il a gagné 171 points Elo sur lmarena
    • En cherchant nano banana sur Twitter, on peut voir des résultats étonnants
    • En ce moment, tous les domaines "nano banana" sont enregistrés et chacun propose sa propre UI de génération d’images, ce qui donne l’impression d’intermédiaires profitant du nom d’un modèle populaire
    • Je me demande pourquoi ça s’appelle nano banana
  • C’est donc le fameux modèle nano-banana, qui s’appelle maintenant gemini-2.5-flash-image-preview sur LMArena
  • Quand on essaie de créer des images avec Gemini, une fois sur deux il répond que c’est impossible
    • En plus, les fonctionnalités annoncées par Google sont éparpillées partout, donc c’est vraiment confus de savoir dans quel produit on peut les utiliser et où il faut payer
  • Les modèles d’image finissent par être de vrais vampires à temps
    • Créer une seule pièce est facile, mais produire la même pièce de façon cohérente sous plusieurs angles est pratiquement impossible
    • C’est difficile à utiliser pour des travaux qui demandent une cohérence visuelle
  • J’ai numérisé des photos de famille, mais beaucoup étaient abîmées, donc la restauration était compliquée
    • Ce modèle a l’air enfin assez bon pour restaurer sans modifier les détails, on dirait qu’on arrive à un stade vraiment utile
    • En réalité, ce type de défauts peut être réparé automatiquement avec un scanner de films + ICE et un logiciel comme Vuescan
      • Confier des centaines de photos à une IA cloud expérimentale ne semble pas nécessaire
    • Je me demande si quelqu’un connaît un logiciel d’amélioration de qualité vidéo
      • Je suis en train de numériser des bandes Video 2000 et VHS, et j’aimerais améliorer un peu ces vidéos souvenirs
    • J’espère que ça marchera bien, mais dans un des exemples, le visage avait un aspect trop généré par IA
    • En fait, un modèle appelé Flux Kontext avait déjà atteint ce niveau il y a quelques mois
  • Les performances du modèle sont impressionnantes, mais en même temps son impact social m’inquiète
    • Il suffit de voir les commentaires Facebook pour être mal à l’aise
    • J’ai testé le SynthID de Google, et c’était plutôt convaincant
      • Le filigrane reste présent même après compression, recadrage, redimensionnement, correction colorimétrique et overpainting
    • Moi aussi, j’ai récemment perdu 15k BTC à cause d’une arnaque deepfake pendant un événement de lancement SpaceX
      • La technologie est devenue si sophistiquée que les attaques deviennent de plus en plus dangereuses
    • Les commentaires Facebook ont clairement l’air d’être pilotés par des bots
  • L’exemple de la lampe était assez impressionnant
    • Le branchement électrique, l’éclairage et même les ombres étaient rendus naturellement
  • J’aime beaucoup la vitesse par rapport à la génération d’images de ChatGPT
    • ChatGPT est tellement lent qu’il fallait presque attendre le résultat via notification
    • Imaginer une image du genre « à quoi ressemblent les investisseurs d’OpenAI après avoir essayé Gemini 2.5 Flash Image » me fait rire
  • Il y avait une tâche que je voulais faire depuis longtemps
    • Remplacer un objet précis de l’image 1 par l’objet de l’image 2, en voulant même spécifier exactement l’emplacement
    • J’ai essayé plusieurs modèles, mais ils ont tous échoué ; celui-ci s’en est presque approché, mais a finalement remplacé un autre objet
    • Je me demande s’il existe un modèle spécialisé dans le remplacement à un emplacement précis à partir d’une image de référence
    • Le modèle ACE++ d’Alibaba prend en charge ce type de fonctionnalité
      • Il est utilisé sur phind.design, mais c’est un cas d’usage assez spécifique, donc ce n’est pas très courant d’en voir