1 points par GN⁺ 2025-04-25 | 1 commentaires | Partager sur WhatsApp
  • La fonction de génération d’images introduite le mois dernier par OpenAI dans ChatGPT a enregistré plus de 700 millions d’images générées dès sa première semaine
  • Cette capacité est désormais étendue à l’API avec le lancement du modèle gpt-image-1, que les développeurs et les entreprises peuvent intégrer à leurs propres plateformes
  • Elle est déjà utilisée dans divers secteurs pour le design, la création de logos, le marketing, le montage vidéo, etc.
  • Les fonctions de sécurité ont été renforcées, et les données clients ne sont pas utilisées par défaut pour l’entraînement lors de l’usage de l’API
  • Selon le niveau de qualité, le coût par image est d’environ 0,02 $ (faible), 0,07 $ (moyen), 0,19 $ (élevé)

Publication du modèle de génération d’images via l’API

  • OpenAI lance le modèle gpt-image-1 en étendant à l’API la fonctionnalité de génération d’images populaire dans ChatGPT
  • Ce modèle peut générer différents styles, rendre le texte avec précision, respecter fidèlement des consignes personnalisées et mobiliser ses connaissances du monde
  • Des entreprises et des startups l’utilisent déjà dans de nombreux domaines, notamment le design, l’e-commerce, l’éducation et le jeu vidéo

Principaux cas d’usage

  • Adobe : propose une fonctionnalité de génération d’images permettant d’expérimenter divers styles esthétiques via Firefly et l’application Express
  • Airtable : utilise l’IA pour accroître la productivité créative dans des workflows à grande échelle
  • Figma : intègre à sa plateforme des fonctions de génération et d’édition d’images via gpt-image-1, afin de permettre aux utilisateurs d’explorer visuellement leurs idées
  • Canva intègre gpt-image-1 à Canva AI et Magic Studio pour étendre ses fonctions de création et d’édition de design
    • Par exemple, en transformant des croquis à main levée en éléments graphiques raffinés ou en permettant une édition de haute précision
  • GoDaddy expérimente la génération d’images pour la création et l’édition de logos
    • Cela permet la suppression de l’arrière-plan, la génération de typographies et la création de contenus reflétant l’identité de marque
    • L’intégration avec GoDaddy Airo® prend aussi en charge la création de contenus pour les réseaux sociaux et de ressources marketing
  • HubSpot expérimente la génération d’images pour produire des supports marketing et commerciaux
    • Sans faire appel à un designer, cela ouvre la possibilité de créer des images de haute qualité pour des e-mails, les réseaux sociaux et des landing pages
  • Gamma : génère plus de 5 millions d’images IA par jour pour alimenter des présentations et des sites web
  • HeyGen : améliore les fonctions de création et d’édition d’avatars afin d’offrir une expérience plus personnalisée aux utilisateurs
  • OpusClip : crée des miniatures attractives pour inciter au clic à destination des créateurs YouTube
  • Instacart teste l’ajout d’images à des recettes ou listes de courses à l’aide de l’API de génération d’images
  • invideo a adopté gpt-image-1 pour ajouter des fonctions d’amélioration de la génération de texte, de contrôle précis de l’édition et de mise à disposition de guides de style

Sécurité

  • gpt-image-1 utilise les mêmes garde-fous de sécurité que la génération d’images 4o dans ChatGPT
  • Il empêche la génération d’images nuisibles et inclut des métadonnées C2PA dans les images générées
  • Le paramètre moderation permet d’ajuster le niveau de sensibilité du filtrage (valeur par défaut : auto, faible sensibilité : low)
  • OpenAI n’entraîne pas ses modèles sur les données des clients API, et les entrées/sorties restent soumises à la politique d’usage de l’API

Tarification

  • Jetons d’entrée texte : 5 $ par million de tokens
  • Jetons d’entrée image : 10 $ par million de tokens
  • Jetons de sortie image : 40 $ par million de tokens
  • Selon le niveau de qualité, le coût par image est d’environ 0,02 $ (faible), 0,07 $ (moyen), 0,19 $ (élevé)

Pour commencer

  • gpt-image-1 est disponible dans l’Images API globale, et la prise en charge dans la Responses API est prévue prochainement
  • Certains développeurs devront peut-être passer par une procédure de vérification de leur organisation pour pouvoir l’utiliser
  • Il est possible de tester la fonctionnalité dans Playground et de démarrer via la documentation de référence

1 commentaires

 
GN⁺ 2025-04-25
Avis Hacker News
  • Hier, quelqu’un se plaignait du taux de refus très élevé pour les tâches liées au gouvernement et à l’armée. Cela pourrait nuire au travail en poussant les sous-traitants à utiliser des modèles open source développés en CN

    • Aujourd’hui, j’ai découvert qu’il existe, pour les entreprises qui travaillent dans ce domaine, une couche d’accès API avec presque aucune censure de contenu. Je ne sais pas comment demander cet accès, mais j’ai parlé à quatre sous-traitants de la défense qui l’utilisent déjà
  • Par curiosité, j’ai généré le même prompt pour chaque niveau de qualité : Auto, low, medium, high

    • Prompt : "un chiot mignon serre un chaton mignon dans ses bras"
    • J’ai montré quelques images DALL:E 3 dans les commentaires à titre de comparaison
  • J’ai généré 5 images dans le playground. Une utilisait uniquement un prompt texte, et les 4 autres utilisaient une image de mon téléphone. J’ai dépensé 0,85 $ pour des portraits façon Studio Ghibli destinés au groupe de discussion familial, mais c’est trop cher pour un produit destiné à des clients

  • Je me demande quelles applications doivent générer des centaines ou des milliers d’images. J’aime transformer des photos de famille en style Ghibli, mais je n’ai pas besoin d’en produire en masse. Chaque fois que j’ai utilisé la génération d’images, c’était pour un besoin ponctuel, et le faire dans l’interface de ChatGPT m’a suffi

  • Côté prix, cette API aura du mal à justifier sa valeur à moins d’apporter quelque chose via les références. Une image 1024x1024 générée en medium coûte 0,04 $ par image, ce qui la place dans la même gamme de prix qu’Imagen 3 et Flux 1.1 Pro. D’après mes tests dans le nouveau playground, l’image medium est de moins bonne qualité que ces deux modèles concurrents et prend encore plus de 15 secondes à être générée

    • Les prompts du modèle sont sensiblement différents et plus difficiles que pour les modèles traditionnels. Les astuces classiques de génération d’images ne fonctionnent pratiquement pas, et il est difficile d’obtenir quelque chose qui marche sans un important travail d’enrichissement du prompt
  • "Montage vidéo : invideo permet à des millions d’utilisateurs de transformer leurs idées en vidéos grâce à l’IA. Avec l’intégration de gpt-image-1, la plateforme offre désormais une meilleure génération de texte, un contrôle d’édition plus fin et des consignes de style avancées"

    • Je me demande si cela signifie qu’il gère aussi la vidéo d’une manière ou d’une autre
  • L’usage de gpt-image-1 est facturé au token, avec des tarifs séparés pour les tokens texte et image

    • Tokens d’entrée texte (texte du prompt) : 5 $ par million de tokens
    • Tokens d’entrée image (image fournie en entrée) : 10 $ par million de tokens
    • Tokens de sortie image (image générée) : 40 $ par million de tokens
    • En pratique, cela correspond à environ 0,02 $, 0,07 $ et 0,19 $ par image carrée de faible, moyenne et haute qualité respectivement
    • C’est un peu cher pour une startup
  • Pour les curieux, ce n’est pas basé sur la diffusion mais sur un LLM. Il suit donc les prompts textuels avec une précision bien supérieure

    • Par exemple, des utilisateurs d’apps de génération d’images (moi y compris) ont essayé de créer une image d’une personne dans la poche d’un kangourou
    • Quel que soit le prompt utilisé, ça ne fonctionnait pas
    • Ce nouveau modèle l’a fait du premier coup
  • GoDaddy expérimente activement l’intégration de la génération d’images pour permettre à ses clients de créer des logos faciles à modifier

    • Je me souviens avoir rencontré sur Discord, il y a un ou deux ans, quelqu’un qui travaillait sur les icônes générées pour les clients de GoDaddy. Un modèle personnalisé de cette ampleur pourrait être remplacé par gpt-image-1
  • Quelqu’un a une idée de ce que représentent les « tokens image » dans la tarification ?

    • Je me demande s’il s’agit de blocs d’image de taille fixe