- Google a lancé en aperçu développeur la fonction de génération d’images via le modèle Gemini 2.0 Flash
- À partir de commandes textuelles, il est possible de générer, modifier et retoucher partiellement des images, avec une meilleure qualité visuelle et un rendu de texte amélioré
- Divers cas d’usage sont présentés, comme le reskin de produits, la création de SKU et la coédition en temps réel
- Il est possible de tester immédiatement la fonctionnalité via [Google AI Studio] et [Vertex AI], et les limites d’utilisation de l’API ont également été relevées
Présentation de l’aperçu de la génération d’images de Gemini 2.0 Flash
- Suite aux retours des développeurs, Google propose une version preview de la génération d’images via le modèle Gemini 2.0 Flash
- Les utilisateurs peuvent y accéder via Google AI Studio ou Vertex AI
Principales améliorations
- Qualité visuelle améliorée (par rapport à la version expérimentale précédente)
- Précision accrue du rendu du texte
- Réduction du taux de blocage par les filtres
Exemples de fonctionnalités de génération d’images utilisables
- Refonte d’arrière-plan d’images produit : possibilité de recomposer des photos de produits existantes avec divers arrière-plans et environnements
- Édition collaborative en temps réel : l’application Gemini Co-Drawing prend en charge l’édition d’images en temps réel par plusieurs utilisateurs
- Édition conversationnelle partielle d’images : il est possible de modifier uniquement des zones spécifiques via des commandes conversationnelles, sans changer l’ensemble de l’image
- Génération dynamique de SKU produit : en combinant image et texte, il est possible de générer automatiquement de nouvelles variantes de produits (couleur, étiquette, etc.)
- Brainstorming avec Gemini : la combinaison texte + image permet de mettre en œuvre divers scénarios autour de la cuisine, des produits, de la conception, etc.
Exemple d’utilisation de l’API (Python)
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me how to bake a macaron with images."),
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
Suite du programme
- Google prévoit de continuer à étendre cette fonctionnalité avec une meilleure qualité, des fonctions supplémentaires, une vitesse accrue et une amélioration de la tarification
- Pour plus de détails, voir le guide de génération d’images de l’API Gemini
1 commentaires
Commentaire Hacker News