11 points par GN⁺ 2025-11-21 | 1 commentaires | Partager sur WhatsApp
  • Nano Banana Pro est le tout dernier modèle de génération et d’édition d’images de Google DeepMind, basé sur Gemini 3 Pro, qui permet de concrétiser avec précision des idées visuelles
  • Grâce à un rendu de texte amélioré et à la prise en charge multilingue, il peut insérer directement dans l’image des textes lisibles pour des affiches, mockups, infographies, etc.
  • Avec la fusion de jusqu’à 14 images, le maintien de la cohérence de 5 personnages et la prise en charge des résolutions 2K à 4K, il facilite la création de contenus visuels de haute qualité
  • Il est intégré à divers produits Google comme Google Ads, Workspace, l’app Gemini et AI Studio, ce qui le rend exploitable par les consommateurs, les professionnels et les développeurs
  • Le filigrane SynthID garantit la transparence des images générées par IA, et une fonction d’identification des contenus IA est directement proposée dans l’app Gemini

Vue d’ensemble de Nano Banana Pro

  • Nano Banana Pro est un modèle qui exploite les capacités de raisonnement et les connaissances du monde de Gemini 3 Pro pour visualiser avec finesse des informations visuelles
    • Il s’agit d’une version améliorée lancée après la version précédente, Nano Banana (Gemini 2.5 Flash Image)
    • Il prend en charge divers travaux de design comme l’idéation, la visualisation de données ou la transformation de notes manuscrites en diagrammes

Fonctionnalités principales

  • Génération de visuels précis et riches en contexte
    • Les fonctions avancées de raisonnement de Gemini 3 permettent de produire des contenus factuels comme des infographies pédagogiques ou des diagrammes
    • Connecté aux informations en temps réel de Google Search, il peut visualiser des données en direct comme la météo, le sport ou des recettes
  • Rendu de texte multilingue
    • Le texte dans les images est restitué avec précision et de manière lisible, avec possibilité de traduction et de localisation dans plusieurs langues
    • Il convient à la création d’affiches ou de contenus de marque grâce à l’usage de polices, textures et styles typographiques variés
  • Rendu visuel de haute qualité
    • Il permet de créer des images composites complexes avec la fusion de jusqu’à 14 images et le maintien de la cohérence de 5 personnages
    • Il offre un contrôle fin de l’édition, comme la retouche locale, l’ajustement de l’angle de caméra, la correction des couleurs et le changement d’éclairage
    • Il prend en charge les résolutions 2K et 4K ainsi que différents formats d’image, pour l’impression comme pour les plateformes numériques

Environnements d’utilisation

  • Pour les consommateurs et les étudiants
    • Nano Banana Pro est disponible via la fonction « Create images » de l’app Gemini
    • Les utilisateurs gratuits disposent d’un volume de génération limité, puis basculent vers la version Nano Banana de base
    • Les abonnés à Google AI Plus, Pro et Ultra bénéficient de limites de génération plus élevées
  • Pour les professionnels
    • La fonction de génération d’images de Google Ads a été mise à niveau avec Nano Banana Pro
    • Il est également disponible dans Slides et Vids de Google Workspace
  • Pour les développeurs et les entreprises
    • La prise en charge est étendue via la Gemini API, Google AI Studio, Vertex AI, Antigravity et Gemini Enterprise
  • Pour les créateurs
    • L’outil Flow permet aux vidéastes et aux marketeurs d’exercer un contrôle précis scène par scène

Identification des images générées par IA et transparence

  • Toutes les images générées par Nano Banana Pro intègrent un filigrane numérique SynthID, ce qui permet d’en identifier l’origine
    • Dans l’app Gemini, il est possible d’importer une image pour vérifier directement si elle a été « générée par l’IA de Google »
    • Les images des utilisateurs gratuits et Pro reçoivent aussi un filigrane visible (Gemini sparkle)
    • Les abonnés Ultra et les outils développeur d’AI Studio disposent d’un canevas propre sans filigrane
  • SynthID devrait à l’avenir être étendu aux contenus audio et vidéo

Ressources associées

  • Build with Nano Banana Pro : présentation du modèle Gemini 3 Pro Image pour les développeurs
  • Prompting Tips for Nano Banana Pro : guide pour rédiger des prompts efficaces
  • AI Image Verification in Gemini App : explication de la fonction de vérification d’images basée sur SynthID

Aucune information supplémentaire dans la source originale

1 commentaires

 
GN⁺ 2025-11-21
Avis Hacker News
  • Cette semaine, Google donnait l’impression de bouger comme Godzilla
    J’ai essayé pour la première fois de connecter une carte à AI Studio, et le processus de paiement était beaucoup trop compliqué
    Même après avoir tout configuré, j’avais toujours l’erreur « permission denied »
    S’il faut aller aussi loin juste pour payer, peu importe la qualité du modèle, ça n’en vaut pas la peine

    • Désolé pour cette mauvaise expérience
      L’équipe travaille d’arrache-pied pour améliorer l’accessibilité
      Un système de paiement intégré à AI Studio est en préparation pour réduire les frictions liées au paiement, avec un lancement mondial prévu en janvier
    • Les API Google ont globalement une barrière à l’entrée beaucoup trop élevée
      Ailleurs, une simple clé API suffit, alors que chez Google il faut créer un compte → créer une application → activer le service → créer une application OAuth → télécharger le JSON
    • Si vous voulez simplement utiliser l’API, je recommande Nano-Banana-Pro de Fal.ai
      L’inscription est bien plus simple et le service propose divers modèles d’IA
    • J’utilise aussi les offres payantes de Claude et OpenAI, mais Gemini est tellement difficile à payer qu’il est déjà pénible rien que d’essayer
      Créer un projet GCP juste pour faire un test, c’est excessif
    • L’inconfort est tel qu’il y a presque une opportunité business à créer un meilleur frontend développeur pour les produits IA de Google
  • J’ai retesté tous les prompts liés à l’édition avec Nano Banana Pro
    Il a passé les tests SHRDLU, M&M Van Halen et Scorpio Street
    Les résultats sont visibles ici
    NB Pro a clairement montré de meilleures performances que le NB d’origine

    • Sur le test d’édition de girafe, le résultat de NB Pro semblait meilleur que celui de Seedream, mais l’évaluation indiquait l’inverse
      Le test lui-même ne semblait pas très pertinent
    • NB Pro aurait dû valider le test de la girafe
      Le résultat n’est pas parfait, mais il a bien fait ce qui était demandé
    • Le test de la tour de Pise était intéressant
      Il réussit les prompts qui demandent des connaissances explicites, mais redresser simplement un objet incliné reste difficile
    • Ce serait plus facile de comparer si l’image d’origine était toujours affichée avec chaque test
      Montrer l’original et le résultat côte à côte serait sans doute plus intuitif qu’un slider
    • Le site est vraiment utile. Je me demande s’il est aussi prévu d’y faire le benchmark texte-vers-image avec NB Pro
  • J’ai mené pendant plusieurs mois une analyse de prompt engineering de Nano Banana, et Google a sorti une nouvelle version
    Le nouveau modèle fonctionne directement dans le package gemimg
    En revanche, son prix est trop élevé pour en faire le modèle par défaut
    D’après la documentation, le modèle génère jusqu’à deux images intermédiaires (étape Thinking)
    C’est peut-être ce qui explique la hausse du coût

    • L’exemple de prompt « une fraise dans l’œil gauche, une mûre dans l’œil droit » était intéressant
      Le modèle interprète gauche et droite du point de vue de l’observateur, et les place donc au mauvais endroit
      Ce type d’erreur sur des consignes relatives est aussi fréquent en milieu médical
      Lien vers l’exemple correspondant
    • Le guide Nano Banana de Max reste valable
      La plupart des prompts fonctionnent aussi bien avec NB Pro
      Lien du guide
      J’ai aussi partagé mes résultats d’expérimentation
    • Le coût par image d’entrée est de 0,0011 $, pas de 0,06 $
    • La version 0.3.2 de gemimg a été publiée, et la plupart des erreurs d’image dans NB Pro ont été corrigées
      La « transformation en style Studio Ghibli » est bien plus fidèle que dans ChatGPT
      En revanche, des images trop réalistes tombent parfois dans l’uncanny valley
    • Le wrapper gemimg reste utile
      Cela m’a rappelé à quel point il est important de concevoir des outils adaptables capables de suivre les évolutions techniques
  • La capacité à générer une infographie complète à partir d’un prompt court est impressionnante
    J’ai demandé « comment fonctionne le projet Datasette » et j’ai obtenu un résultat très abouti
    Lien vers le résultat

    • Cette fonction pourrait transformer radicalement la génération de flyers d’événement dans le SaaS
      Aujourd’hui, le texte était rendu séparément, mais il semble désormais possible de tout faire en une seule passe
    • En revanche, il n’a pas réussi à trouver le do central sur un clavier de piano
      Voir cette image de résultat
    • Il génère aussi de bonnes infographies pour des projets avec très peu d’informations, comme player.html
      Lien GitHub
      Il convertit même automatiquement au format carré pour Instagram
    • Je me demande si l’infographie de Datasette correspond vraiment à son fonctionnement réel
  • Les images IA ne produisent plus d’artefacts manifestes, mais elles restent encore identifiables comme de l’IA à cause du style
    Les infographies, en particulier, restaient distinguables de celles faites par des humains
    Cela semble être le résultat d’une surreprésentation de certains jeux de données

    • Les humains sont très sensibles aux différences visuelles subtiles
      Les modèles entraînés sur des moyennes créent un « espace d’image moyen »
      Cet exemple connexe montre qu’un fine-tuning peut aussi produire des résultats réalistes
    • Ce n’est pas seulement un problème de données
      Certains modèles suppriment volontairement le style, ce qui leur donne un rendu artificiel
      Avec les modèles ouverts, on peut ajuster finement via LoRA, mais c’est plus difficile avec les modèles fermés
    • La plupart des modèles apprennent sur les données du web entier et produisent donc des résultats moyens prévisibles
      Si l’on veut des images originales, le prompt lui-même doit être plus créatif
    • Il reste encore des erreurs subtiles dans les textures, les proportions, l’éclairage, etc.
      C’est pourquoi les fonctions d’édition d’image sont considérées comme le prochain défi
    • Les modèles affinés avec retour humain apprennent un « goût moyen » et perdent leur personnalité
      Les premiers modèles avaient une qualité inférieure, mais donnaient des résultats plus intéressants
  • SynthID est un bon premier pas, mais il a une limite : il ne permet pas de distinguer les contenus IA sans watermark
    Les grandes entreprises doivent adopter des identifiants standardisés

    • Je pense qu’obliger les watermarks par la loi serait dangereux
      Si Photoshop avait été soumis au même type de régulation, la créativité aurait été fortement limitée
    • Apple finira peut-être par lancer une fonction comme « Real Photos »
      Le principe serait de prouver qu’une photo a bien été prise avec un vrai appareil, puis d’afficher un badge de vérification dans iMessage
    • Si les entreprises appliquent des watermarks, c’est pour gérer le réentraînement des données
      À terme, les principaux modèles commerciaux finiront probablement par imposer le watermark par défaut
    • Si un identifiant standard apparaît, des logiciels pour le supprimer apparaîtront aussi
      Ce sera un éternel jeu du chat et de la souris
    • Il existe le projet C2PA qui cherche justement à résoudre ce problème
  • Les animateurs 2D peuvent encore être rassurés
    J’ai essayé de générer une sprite sheet, et le modèle s’est contenté de répéter les frames au lieu de produire une interpolation naturelle entre les mouvements

  • Compilation de ressources officielles
    Developer Blog
    Page DeepMind
    Model Card PDF
    Présentation de SynthID

  • C’est le premier modèle de génération d’images à réussir mon test du piano
    Il répète correctement le motif des touches noires à travers les octaves
    Les modèles précédents représentaient toujours mal la disposition des touches

    • Mais dès qu’on s’éloigne du standard 88 touches, il fait encore beaucoup d’erreurs
      Même quand on lui demande de colorier une note précise, il répond de manière aléatoire
      Le piano est pourtant un objet standardisé avec probablement beaucoup de données d’entraînement, et malgré cela la compréhension reste insuffisante
    • Maintenir un motif répétitif sur une longue portée est difficile
      Le fait d’avoir gardé une cohérence sur l’ensemble des 88 touches est impressionnant
  • Désormais, les modèles peuvent rendre naturellement du texte à l’intérieur des images
    Une capacité qui était autrefois impossible donne maintenant l’impression d’être une base acquise

    • Je suis d’accord. Mais dans les zones où le visuel et le code se chevauchent, comme la génération d’icônes, cela reste encore faible
      Pour les courbes, l’espacement et l’équilibre visuel, le travail humain reste meilleur pour l’instant