- La fonction de génération d’images introduite le mois dernier par OpenAI dans ChatGPT a enregistré plus de 700 millions d’images générées dès sa première semaine
- Cette capacité est désormais étendue à l’API avec le lancement du modèle gpt-image-1, que les développeurs et les entreprises peuvent intégrer à leurs propres plateformes
- Elle est déjà utilisée dans divers secteurs pour le design, la création de logos, le marketing, le montage vidéo, etc.
- Les fonctions de sécurité ont été renforcées, et les données clients ne sont pas utilisées par défaut pour l’entraînement lors de l’usage de l’API
- Selon le niveau de qualité, le coût par image est d’environ 0,02 $ (faible), 0,07 $ (moyen), 0,19 $ (élevé)
Publication du modèle de génération d’images via l’API
- OpenAI lance le modèle gpt-image-1 en étendant à l’API la fonctionnalité de génération d’images populaire dans ChatGPT
- Ce modèle peut générer différents styles, rendre le texte avec précision, respecter fidèlement des consignes personnalisées et mobiliser ses connaissances du monde
- Des entreprises et des startups l’utilisent déjà dans de nombreux domaines, notamment le design, l’e-commerce, l’éducation et le jeu vidéo
Principaux cas d’usage
- Adobe : propose une fonctionnalité de génération d’images permettant d’expérimenter divers styles esthétiques via Firefly et l’application Express
- Airtable : utilise l’IA pour accroître la productivité créative dans des workflows à grande échelle
- Figma : intègre à sa plateforme des fonctions de génération et d’édition d’images via
gpt-image-1, afin de permettre aux utilisateurs d’explorer visuellement leurs idées
- Canva intègre gpt-image-1 à Canva AI et Magic Studio pour étendre ses fonctions de création et d’édition de design
- Par exemple, en transformant des croquis à main levée en éléments graphiques raffinés ou en permettant une édition de haute précision
- GoDaddy expérimente la génération d’images pour la création et l’édition de logos
- Cela permet la suppression de l’arrière-plan, la génération de typographies et la création de contenus reflétant l’identité de marque
- L’intégration avec GoDaddy Airo® prend aussi en charge la création de contenus pour les réseaux sociaux et de ressources marketing
- HubSpot expérimente la génération d’images pour produire des supports marketing et commerciaux
- Sans faire appel à un designer, cela ouvre la possibilité de créer des images de haute qualité pour des e-mails, les réseaux sociaux et des landing pages
- Gamma : génère plus de 5 millions d’images IA par jour pour alimenter des présentations et des sites web
- HeyGen : améliore les fonctions de création et d’édition d’avatars afin d’offrir une expérience plus personnalisée aux utilisateurs
- OpusClip : crée des miniatures attractives pour inciter au clic à destination des créateurs YouTube
- Instacart teste l’ajout d’images à des recettes ou listes de courses à l’aide de l’API de génération d’images
- invideo a adopté gpt-image-1 pour ajouter des fonctions d’amélioration de la génération de texte, de contrôle précis de l’édition et de mise à disposition de guides de style
Sécurité
- gpt-image-1 utilise les mêmes garde-fous de sécurité que la génération d’images 4o dans ChatGPT
- Il empêche la génération d’images nuisibles et inclut des métadonnées C2PA dans les images générées
- Le paramètre
moderation permet d’ajuster le niveau de sensibilité du filtrage (valeur par défaut : auto, faible sensibilité : low)
- OpenAI n’entraîne pas ses modèles sur les données des clients API, et les entrées/sorties restent soumises à la politique d’usage de l’API
Tarification
- Jetons d’entrée texte : 5 $ par million de tokens
- Jetons d’entrée image : 10 $ par million de tokens
- Jetons de sortie image : 40 $ par million de tokens
- Selon le niveau de qualité, le coût par image est d’environ 0,02 $ (faible), 0,07 $ (moyen), 0,19 $ (élevé)
Pour commencer
- gpt-image-1 est disponible dans l’Images API globale, et la prise en charge dans la Responses API est prévue prochainement
- Certains développeurs devront peut-être passer par une procédure de vérification de leur organisation pour pouvoir l’utiliser
- Il est possible de tester la fonctionnalité dans Playground et de démarrer via la documentation de référence
1 commentaires
Avis Hacker News
Hier, quelqu’un se plaignait du taux de refus très élevé pour les tâches liées au gouvernement et à l’armée. Cela pourrait nuire au travail en poussant les sous-traitants à utiliser des modèles open source développés en CN
Par curiosité, j’ai généré le même prompt pour chaque niveau de qualité :
Auto,low,medium,highJ’ai généré 5 images dans le playground. Une utilisait uniquement un prompt texte, et les 4 autres utilisaient une image de mon téléphone. J’ai dépensé 0,85 $ pour des portraits façon Studio Ghibli destinés au groupe de discussion familial, mais c’est trop cher pour un produit destiné à des clients
Je me demande quelles applications doivent générer des centaines ou des milliers d’images. J’aime transformer des photos de famille en style Ghibli, mais je n’ai pas besoin d’en produire en masse. Chaque fois que j’ai utilisé la génération d’images, c’était pour un besoin ponctuel, et le faire dans l’interface de ChatGPT m’a suffi
Côté prix, cette API aura du mal à justifier sa valeur à moins d’apporter quelque chose via les références. Une image 1024x1024 générée en
mediumcoûte 0,04 $ par image, ce qui la place dans la même gamme de prix qu’Imagen 3 et Flux 1.1 Pro. D’après mes tests dans le nouveau playground, l’imagemediumest de moins bonne qualité que ces deux modèles concurrents et prend encore plus de 15 secondes à être générée"Montage vidéo : invideo permet à des millions d’utilisateurs de transformer leurs idées en vidéos grâce à l’IA. Avec l’intégration de gpt-image-1, la plateforme offre désormais une meilleure génération de texte, un contrôle d’édition plus fin et des consignes de style avancées"
L’usage de gpt-image-1 est facturé au token, avec des tarifs séparés pour les tokens texte et image
Pour les curieux, ce n’est pas basé sur la diffusion mais sur un LLM. Il suit donc les prompts textuels avec une précision bien supérieure
GoDaddy expérimente activement l’intégration de la génération d’images pour permettre à ses clients de créer des logos faciles à modifier
Quelqu’un a une idée de ce que représentent les « tokens image » dans la tarification ?