Aperçu de Gemini 2.0 Flash : génération et édition d’images dévoilées

(developers.googleblog.com)

3 points par GN⁺ 2025-05-08 | 1 commentaires | Partager sur WhatsApp

Google a lancé en aperçu développeur la fonction de génération d’images via le modèle Gemini 2.0 Flash
À partir de commandes textuelles, il est possible de générer, modifier et retoucher partiellement des images, avec une meilleure qualité visuelle et un rendu de texte amélioré
Divers cas d’usage sont présentés, comme le reskin de produits, la création de SKU et la coédition en temps réel
Il est possible de tester immédiatement la fonctionnalité via [Google AI Studio] et [Vertex AI], et les limites d’utilisation de l’API ont également été relevées

Présentation de l’aperçu de la génération d’images de Gemini 2.0 Flash

Suite aux retours des développeurs, Google propose une version preview de la génération d’images via le modèle Gemini 2.0 Flash
Les utilisateurs peuvent y accéder via Google AI Studio ou Vertex AI

Principales améliorations

Qualité visuelle améliorée (par rapport à la version expérimentale précédente)
Précision accrue du rendu du texte
Réduction du taux de blocage par les filtres

Exemples de fonctionnalités de génération d’images utilisables

Refonte d’arrière-plan d’images produit : possibilité de recomposer des photos de produits existantes avec divers arrière-plans et environnements
Édition collaborative en temps réel : l’application Gemini Co-Drawing prend en charge l’édition d’images en temps réel par plusieurs utilisateurs
Édition conversationnelle partielle d’images : il est possible de modifier uniquement des zones spécifiques via des commandes conversationnelles, sans changer l’ensemble de l’image
Génération dynamique de SKU produit : en combinant image et texte, il est possible de générer automatiquement de nouvelles variantes de produits (couleur, étiquette, etc.)
Brainstorming avec Gemini : la combinaison texte + image permet de mettre en œuvre divers scénarios autour de la cuisine, des produits, de la conception, etc.

Exemple d’utilisation de l’API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)

Suite du programme

Google prévoit de continuer à étendre cette fonctionnalité avec une meilleure qualité, des fonctions supplémentaires, une vitesse accrue et une amélioration de la tarification
Pour plus de détails, voir le guide de génération d’images de l’API Gemini

1 commentaires

GN⁺ 2025-05-08

Commentaire Hacker News

J’ai testé Gemini 2.0 en le comparant à plusieurs modèles de génération d’images. Je ne sais pas dans quelle mesure Imagen 3.0 de Google y est intégré, mais la qualité esthétique globale semble assez inférieure
- Les principaux avantages sont l’aspect multimodal visant à rester au niveau des produits d’OpenAI, ainsi qu’une vitesse bien supérieure à la génération d’images de OpenAI 4o
Chaque fois qu’on utilise l’outil, il faut souvent s’y reprendre à plusieurs fois pour obtenir le résultat souhaité. J’ai des doutes sur l’usage d’une interface conversationnelle
Il faut l’utiliser avec prudence. Par exemple, quand j’ai demandé une recette de butter chicken végétarien, j’ai reçu 41 Mo de JSON et 28 images en base64. À 4 cents par image, cela a coûté plus d’1 dollar pour une seule requête
J’ai utilisé Gemini 2.0 pour générer 100 recettes et images, et les résultats étaient plutôt bons. J’ai utilisé des données brutes et des métadonnées tabulaires au lieu de prompts textuels
Le prix par image de la génération d’images avec Gemini 2.0 est de 0,039 $, donc plus élevé qu’Imagen 3. Gemini peut générer des images via une conversation, tandis qu’Imagen 3 fonctionne en entrée texte / sortie image
J’ai obtenu des résultats mitigés avec la démo code-dessin. J’ai esquissé une scène en espérant que le modèle l’étende, mais il a généré des bonshommes allumettes rendus en 3D
La sortie du modèle est plutôt correcte, et j’ai récemment mis à jour un projet avec ce nouveau modèle. Il reste encore beaucoup de modes d’échec, mais il faudrait un gros livre de cuisine montrant un bon workflow
Ce que Google et les autres entreprises d’IA visent, c’est un monde d’objets générés par IA à l’infini, utilisables pour le shopping ou le e-commerce. C’est un défi pour le véritable artisanat humain et pour les objets qui existent réellement

Aperçu de Gemini 2.0 Flash : génération et édition d’images dévoilées

Présentation de l’aperçu de la génération d’images de Gemini 2.0 Flash

Principales améliorations

Exemples de fonctionnalités de génération d’images utilisables

Exemple d’utilisation de l’API (Python)

Suite du programme

À lire aussi

1 commentaires

Commentaire Hacker News