3 points par GN⁺ 2025-05-08 | 1 commentaires | Partager sur WhatsApp
  • Google a lancé en aperçu développeur la fonction de génération d’images via le modèle Gemini 2.0 Flash
  • À partir de commandes textuelles, il est possible de générer, modifier et retoucher partiellement des images, avec une meilleure qualité visuelle et un rendu de texte amélioré
  • Divers cas d’usage sont présentés, comme le reskin de produits, la création de SKU et la coédition en temps réel
  • Il est possible de tester immédiatement la fonctionnalité via [Google AI Studio] et [Vertex AI], et les limites d’utilisation de l’API ont également été relevées

Présentation de l’aperçu de la génération d’images de Gemini 2.0 Flash

  • Suite aux retours des développeurs, Google propose une version preview de la génération d’images via le modèle Gemini 2.0 Flash
  • Les utilisateurs peuvent y accéder via Google AI Studio ou Vertex AI

Principales améliorations

  • Qualité visuelle améliorée (par rapport à la version expérimentale précédente)
  • Précision accrue du rendu du texte
  • Réduction du taux de blocage par les filtres

Exemples de fonctionnalités de génération d’images utilisables

  • Refonte d’arrière-plan d’images produit : possibilité de recomposer des photos de produits existantes avec divers arrière-plans et environnements
  • Édition collaborative en temps réel : l’application Gemini Co-Drawing prend en charge l’édition d’images en temps réel par plusieurs utilisateurs
  • Édition conversationnelle partielle d’images : il est possible de modifier uniquement des zones spécifiques via des commandes conversationnelles, sans changer l’ensemble de l’image
  • Génération dynamique de SKU produit : en combinant image et texte, il est possible de générer automatiquement de nouvelles variantes de produits (couleur, étiquette, etc.)
  • Brainstorming avec Gemini : la combinaison texte + image permet de mettre en œuvre divers scénarios autour de la cuisine, des produits, de la conception, etc.

Exemple d’utilisation de l’API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

Suite du programme

  • Google prévoit de continuer à étendre cette fonctionnalité avec une meilleure qualité, des fonctions supplémentaires, une vitesse accrue et une amélioration de la tarification
  • Pour plus de détails, voir le guide de génération d’images de l’API Gemini

1 commentaires

 
GN⁺ 2025-05-08
Commentaire Hacker News
  • J’ai testé Gemini 2.0 en le comparant à plusieurs modèles de génération d’images. Je ne sais pas dans quelle mesure Imagen 3.0 de Google y est intégré, mais la qualité esthétique globale semble assez inférieure
    • Les principaux avantages sont l’aspect multimodal visant à rester au niveau des produits d’OpenAI, ainsi qu’une vitesse bien supérieure à la génération d’images de OpenAI 4o
  • Chaque fois qu’on utilise l’outil, il faut souvent s’y reprendre à plusieurs fois pour obtenir le résultat souhaité. J’ai des doutes sur l’usage d’une interface conversationnelle
  • Il faut l’utiliser avec prudence. Par exemple, quand j’ai demandé une recette de butter chicken végétarien, j’ai reçu 41 Mo de JSON et 28 images en base64. À 4 cents par image, cela a coûté plus d’1 dollar pour une seule requête
  • J’ai utilisé Gemini 2.0 pour générer 100 recettes et images, et les résultats étaient plutôt bons. J’ai utilisé des données brutes et des métadonnées tabulaires au lieu de prompts textuels
  • Le prix par image de la génération d’images avec Gemini 2.0 est de 0,039 $, donc plus élevé qu’Imagen 3. Gemini peut générer des images via une conversation, tandis qu’Imagen 3 fonctionne en entrée texte / sortie image
  • J’ai obtenu des résultats mitigés avec la démo code-dessin. J’ai esquissé une scène en espérant que le modèle l’étende, mais il a généré des bonshommes allumettes rendus en 3D
  • La sortie du modèle est plutôt correcte, et j’ai récemment mis à jour un projet avec ce nouveau modèle. Il reste encore beaucoup de modes d’échec, mais il faudrait un gros livre de cuisine montrant un bon workflow
  • Ce que Google et les autres entreprises d’IA visent, c’est un monde d’objets générés par IA à l’infini, utilisables pour le shopping ou le e-commerce. C’est un défi pour le véritable artisanat humain et pour les objets qui existent réellement