21 points par GN⁺ 2025-09-12 | 1 commentaires | Partager sur WhatsApp
  • Recueil open source rassemblant divers exemples de génération et d’édition d’images avec Nano-banana de Google
  • Montre les fonctions de transformation créative et d’édition multi-images à l’aide de la technologie de génération d’images de Google
  • Chaque cas est un exemple d’usage réel collecté dans des communautés comme Twitter/X, Xiaohongshu, etc.
  • Propose une grande variété d’exemples de transformations expérimentales et appliquées en combinant prompts textuels et images d’entrée
  • La conception des prompts et le guide d’entrée sont documentés pour permettre une utilisation immédiate par tous

Aperçu

  • Ce dépôt est une galerie curatoriale rassemblant divers exemples d’images et de prompts créés avec les technologies de génération et d’édition d’images de Nano-banana
  • Il aide à mieux comprendre Nano-banana tout en montrant les possibilités illimitées de génération et d’édition d’images de Google, et permet aussi d’expérimenter la puissance de la fusion multi-images et de l’édition créative
  • Les cas ont été principalement collectés sur Twitter/X, Xiaohongshu et d’autres plateformes de médias personnels
  • Les dates des dernières mises à jour du dépôt et l’historique des versions sont consignés

Menu

Chaque cas se compose d’une combinaison d’images d’entrée et de prompts, ainsi que d’un exemple de sortie.

Exemples d’entrées et de prompts

  • Entrées : plusieurs types sont nécessaires, comme des images de référence, des images Google Maps, des portraits, des croquis, des images de matériaux, etc.
  • Prompts : rédigés en anglais, ils incluent des demandes détaillées de transformation d’image, d’édition, de design, de correction colorimétrique, etc.

Structure type d’un prompt

  • Style d’une personne ou d’un objet, coiffure, transformation de l’arrière-plan, etc.
  • Peut être utilisé pour divers objectifs : produits, bâtiments, personnages, nourriture, style BD, photo d’identité, mockup, etc.
  • Les parties entre [crochets] peuvent être modifiées selon l’objectif d’utilisation afin de fournir un guidage plus précis

Flux d’exemple

  • Téléversement de l’image → saisie du prompt → vérification du résultat généré (lien d’image)
  • Certains sont présentés sous forme de tableau « entrée/résultat », d’autres ne fournissent que le résultat final

Résumé des principaux exemples de cas

  • Transformation de personnages/produits : génération de photos de personnes en personnages, figurines, Lego, ou packaging style Gundam
  • Cosplay/design : création de photos de cosplay à partir d’illustrations, feuilles de vues 3 faces et d’expressions de personnages
  • Correction/restauration d’images : restauration de vieilles photos, suppression d’arrière-plan transparent, amélioration des couleurs et de la luminosité, récupération du bruit
  • Composition/changement de style : BD en 4 cases sans dialogue en noir et blanc, conversion en style BD, miniatures, application de matériaux/filtres, changement de coiffure/maquillage
  • Visualisation de données : infographies résumant des blogs/articles, affichage des calories et des valeurs nutritionnelles
  • Éducation/présentation : schémas de modèles anatomiques, résolution de problèmes de mathématiques, ajout d’annotations explicatives, etc.

Guide de prompts et références

  • Chaque prompt et description de cas fournit un guide personnalisé pour les valeurs d’entrée et les [contenus de remplacement]
  • Possibilité de combiner plusieurs images pour créer des histoires, des fashion boards, des pose sheets, etc.
  • Des rendus techniques sont également possibles (wireframes, hologrammes, représentations 3D)

Participation de la communauté et remerciements

  • Les ressources continuent d’être enrichies autour de contributeurs partageant des cas réels au sein de la communauté IA
  • Il est possible de proposer librement de nouvelles idées d’usage ou créations

Intérêt du projet et éléments différenciants

  • Dépôt GitHub riche en exemples d’applications concrètes des derniers algorithmes de génération d’images
  • Permet de voir d’un seul coup d’œil les prompts Nano-banana, les options détaillées des sorties et les méthodes d’application selon les cas
  • Offre une forte valeur de référence et une réelle utilité pour les designers, chercheurs en IA, développeurs et plus largement tous les profils concernés
  • Chaque exemple peut être facilement réutilisé selon différents objectifs d’édition, de génération et de transformation d’images

1 commentaires

 
GN⁺ 2025-09-12
Avis Hacker News
  • J’ai été impressionné par les résultats vraiment remarquables de Nano-Banana. Je gère un site web de comparaison de modèles d’image de pointe où le critère principal est la précision avec laquelle les résultats correspondent à divers prompts de text-to-image. J’y ai récemment ajouté un Editing Comparison Showdown qui évalue la capacité à éditer localement une image existante à partir de texte. Je compare actuellement 6 modèles multimodaux (Nano-Banana, Kontext Max, Qwen 20b, etc.). Les résultats sont visibles ici. Gemini Flash 2.5 est premier avec 7 points sur 12, et Kontext a 5 points, ce qui est assez impressionnant quand on pense qu’on peut même exécuter le modèle de dev en local
    • De mon côté, même quand je demande à Nano Banana de modifier clairement quelque chose de manière importante, il génère souvent la même image. De temps en temps, il sort aussi un résultat correct de façon vraiment étrange. Si quelqu’un a rencontré ce problème ou connaît une solution, je veux bien savoir
    • Il n’arrive toujours pas à représenter correctement une horloge ou une montre (par ex. une horloge affichant 1:15 am). Et le texte généré dans les images de type BD n’est pas non plus exact à 100 %
    • Je recommande d’ajouter gpt-image-1. Ce n’est pas strictement un modèle d’édition puisqu’il modifie les pixels globalement, mais pour des prompts très complexes avec des références d’image, il paraît plus docile que Nano Banana
  • Je trouve impressionnant que ce modèle n’ait pratiquement d’autre limite que l’imagination, tout en ne coûtant que 0,04 $ par image. Ce n’est pas indiqué sur la page, mais c’est le modèle Google Gemini Image Generation (documentation officielle). La collection d’exemples est aussi très bonne. En revanche, j’ai trouvé un peu étrange que le deuxième exemple soit quelque peu inadapté à un environnement professionnel
    • Je veux souligner que Nano Banana est particulièrement optimisé pour l’édition d’images (plus d’infos)
    • Je me demande s’il s’agit d’un modèle unique ou d’un pipeline de modèles
  • Certains exemples comportent des éléments NSFW. Dans une grande partie du secteur tech américain, partager l’URL principale peut être sensible, donc il vaudrait peut-être mieux ne montrer que des exemples individuels sans risque. À titre indicatif, la moitié du cas 1 montre une femme en tenue de soubrette de style anime/manga prenant une pose qui relève sa jupe et laisse voir ses sous-vêtements. C’est selon moi l’élément le plus problématique parmi les exemples visibles dès la première page
    • J’ai été vraiment surpris qu’ils aient généré cet exemple avec exposition de sous-vêtements. Quand j’ai utilisé Nano Banana (filtre de sécurité « off »), il a refusé de générer une image style manga avec un casque de samouraï maudit et un cadavre allongé
    • Ce qui me gênait encore plus, c’est que l’image de référence était manifestement un digital art de haute qualité réalisé par un artiste. Même au-delà des questions juridiques dans le domaine IA/LLM, afficher aussi ouvertement le travail de quelqu’un d’autre dans une documentation officielle me met moralement mal à l’aise
  • Je ne comprends sincèrement pas pourquoi les gens obtiennent de bons résultats. J’ai essayé Nano Banana (gemini-2.5-flash-image-preview) ici, et les résultats étaient nuls. Quand j’upload une image de référence d’un personnage et une scène pour lui demander d’intégrer le personnage dans cette scène, il se contente de faire un découpage-collage sans harmoniser le style ni les couleurs. ChatGPT donne carrément de meilleurs résultats à mes yeux (même si parfois ça ne ressemble pas, c’est bien mieux qu’un montage Paint fait en 2 minutes). Est-ce que j’utilise peut-être le mauvais modèle ?
    • J’ai exactement la même expérience. Quand Nano Banana fonctionne, ça fonctionne très bien, mais dans 90 % des cas, le résultat est bizarre ou de mauvaise qualité. On dirait un collage ou un paint-over, et il refuse même des demandes raisonnables pour des raisons de « sécurité » (d’après mon expérience, les images avec de vraies personnes sont presque toujours impossibles). Plus agaçant qu’impressionnant
    • D’après mon expérience, Nano Banana abuse volontiers du copier-coller dès qu’il estime que ça passe. Il faut le prompt très clairement sur le fait que le personnage doit être intégré naturellement à la scène. Donc, avec un prompt bien conçu, il est bien meilleur que les autres modèles, mais tout le travail de prompt engineering est pénible et fastidieux
    • Je pense qu’il faut essayer de petites variations de prompt, ou demander à Gemini 2.5 pro d’améliorer le prompt avant de le transmettre à Gemini 2.5 Flash, et itérer pour apprendre ce qui marche
    • Moi aussi j’obtiens des résultats absolument pourris. J’ai essayé d’uploader une photo de ma femme (32 ans) pour voir à quoi elle ressemblerait avec une frange, et ça a été refusé la plupart du temps pour des raisons de sécurité. Quand ça marchait parfois, le visage était complètement différent. Je n’ai réussi à en obtenir un correct qu’une seule fois, mais impossible d’ajuster la frange, et il renvoyait sans cesse le même résultat avec beaucoup de messages « contenu bloqué » entre-temps
  • Personnellement, je trouve les performances de ce modèle en dessous des attentes. Les images d’exemple ont l’air très sélectionnées. Voici quelques échecs que j’ai eus : incapacité à supprimer de fortes ombres sur un visage, vieille photo noir et blanc qu’il n’a pas su transformer en couleurs nettes de style DSLR moderne, demande d’une grille 3x3 de coiffures qui répétait du 2x3 avant d’obtenir enfin un 3x3 mais avec des ethnies mélangées, et impossibilité de fusionner une vraie image avec une image générée (par ex. un dauphin en tutu donnait un affreux effet copier-coller)
    • L’exemple de mise en évidence AR des bâtiments était sympa. Avec exactement le même prompt, il met bien en évidence le bâtiment le plus évident d’une skyline, mais dès qu’on lui en désigne un autre, c’est un échec total. Sur une image de Midtown Manhattan, je lui ai demandé de trouver le Chrysler Building et de le surligner, et il a répondu qu’il n’était pas dans l’image ; pour 432 Park Ave, il a inventé un bâtiment aléatoire au milieu de l’image. Sur une photo du Museum Campus de Chicago aussi, quand j’ai demandé un bâtiment précis, il a surligné le Hancock Center qui n’était pas visible. Les explications étaient fausses, et parfois le texte aussi était corrompu
    • Les exemples eux-mêmes ne sont pas parfaits. Le prompt « Ma photo à travers les époques » a complètement changé le visage malgré la consigne de ne pas le modifier, « OOTD Outfit » utilisait la mauvaise caméra, « Virtual Makeup Try-On » ratait le maquillage, « Lighting Control » gérait très mal l’éclairage, et « Design a Chess Set » disait ne pas avoir besoin d’image d’entrée alors qu’en pratique si. Il y avait pas mal de points d’interrogation dans les résultats. Cela dit, ça peut rester utile pour quelqu’un qui n’a pas Photoshop ou qui veut un brouillon de départ à retoucher à la main
    • En réalité, j’estime qu’il est normal que, pour n’importe quel projet, les démos marketing soient toujours composées surtout de bons exemples
  • J’ai récemment publié un package pour générer facilement des images avec Nano Banana en Python (lien github). En le testant, j’ai remarqué une tendance intéressante en prompt engineering : a) utiliser des listes Markdown à la manière des LLM et b) réutiliser des mots-clés de style d’anciennes IA d’image comme « award-winning » ou « DSLR camera » fonctionne très bien avec Gemini 2.5 Flash Image. Ce modèle a un encodeur de texte et un dataset d’entraînement plus grands, donc il distingue mieux les caractéristiques réelles associées à certaines formulations. La documentation développeur de Google recommande aussi d’utiliser ce genre de mots-clés. Et grâce à sa fenêtre de contexte de 32k, on peut tenter des choses amusantes, comme faire du rendu HTML en image ou obtenir des résultats cohérents via des entrées JSON sophistiquées
  • Je trouve que c’est un progrès stupéfiant. Il n’y a pas si longtemps, il était encore difficile d’obtenir plusieurs rendus cohérents d’un même personnage. Maintenant, on en est à ce niveau de combinaison et de cohérence. Le rythme de progression des modèles génératifs est vraiment impressionnant. Merci au créateur et aux contributeurs d’avoir rassemblé autant d’exemples. Ça aide énormément à comprendre ce que l’outil sait réellement faire
  • J’ai eu récemment une sorte de prise de conscience : autrefois, j’aimais bien croire que notre capacité humaine à imaginer mentalement des choses comme des changements de coiffure était quelque chose de spécial. Maintenant que je vois une machine reproduire cette capacité à un niveau comparable au mien, voire supérieur, ça me met un peu mal à l’aise, comme si mon imagination n’était peut-être pas plus remarquable que ma capacité à soulever un cintre
    • Je suis du type qui ne peut pas visualiser des images dans sa tête, donc j’ai toujours pensé de façon intellectuelle et logique ; ton imagination reste une capacité spéciale. Pour la plupart des gens, ça ressemble vraiment à un super-pouvoir. J’aurais envie de comparer l’IA à Batman (puissant avec de l’argent et une ceinture à gadgets, mais impuissant sans ça) et l’imagination humaine à Superman (un pouvoir inné disponible à tout moment)
    • Je pense que le fait de pouvoir voir des images imaginées dans sa tête, en être heureux, rire, être surpris ou choqué par elles, est vraiment quelque chose de spécial. Les humains ont une raison d’exister et des émotions ; on peut regarder un coucher de soleil et penser à la diffusion de la lumière, ou simplement profiter de l’émerveillement. Chaque fois qu’on accueille pleinement un instant, ça a quelque chose de magique. Le fait que je puisse te répondre et que Hacker News existe me semble presque miraculeux
    • Je suis atteint d’aphantasie (incapacité à former des images mentales), et je suis content que tout le monde puisse désormais imaginer dans des conditions plus égales
    • Je me demande si, à l’avenir, les machines pourront créer de nouveaux styles artistiques de manière autonome. Par exemple, le style BD/anime évolue selon les époques ; si les humains cessaient de faire évoluer cela, est-ce que les machines pourraient continuer ? C’est un point intéressant à observer. En théorie, ce serait possible (les humains sont aussi des machines biologiques), mais avec l’architecture actuelle de l’IA, j’ai l’impression qu’on en est encore loin
    • Pour être juste, cette capacité du modèle elle-même vient des données d’entraînement que nous avons créées
  • J’utilise Nano Banana de façon très utile. Je m’en sers pour créer des livres de coloriage basés sur des photos pour mon fils et les enfants de mes amis (exemples et code). Il produit des résultats qui conservent bien l’aspect livre de coloriage en noir et blanc tout en gardant une partie des détails de la photo d’origine
  • Je suis gêné par le grand nombre d’exemples mettant en scène de très jeunes femmes de manière sexualisée. Le cas 1/B montre un personnage féminin relevant sa jupe pour exposer ses sous-vêtements. C’est un modèle assez impressionnant, mais j’ai l’impression que ce contenu immature sabote sa PR. De mon côté, j’ai compté 26 exemples de jeunes femmes contre 9 d’hommes. À noter qu’il ne manquait plus que le cas « Lena » (référence Lenna)
    • J’ai ressenti exactement le même malaise au début. Je ne sais pas si c’est juste qu’on vieillit tous, mais c’est bien l’impression que ça m’a faite
    • Il faut reconnaître que le moteur du progrès technologique a toujours été le désir sexuel, qu’on l’apprécie ou non. Le VHS, le paiement en ligne, le streaming vidéo ont aussi été tirés par cette demande. Ça me rappelle même la célèbre chanson « Internet is for Porn »
    • Si tu regardes ce que sculptaient les artistes préhistoriques, tu seras encore plus surpris. J’ai lu les commentaires avant d’aller voir le site, et comme le cas 1 était un enfant puis juste après une soubrette sexy, ma première réaction a été : « oh non, pourvu qu’ils n’aient pas fusionné ces deux éléments dans une seule image ».