- FLUX.1 Kontext de Black Forest Labs est un modèle d’IA générative de dernière génération capable de recevoir simultanément du texte et des images en entrée, de comprendre le contexte et de modifier ou générer instantanément tout en conservant les caractéristiques et le style d’une image existante
- Par rapport aux algorithmes traditionnels de génération texte-image, il offre de meilleures performances en cohérence du texte et des objets, en édition locale, en référence de style et en rapidité de réponse
- Les utilisateurs peuvent saisir uniquement du texte, ou combiner image et texte pour ne modifier qu’une zone précise, appliquer uniquement un style, ou effectuer des éditions en plusieurs étapes, ce qui permet divers travaux d’image interactifs
- FLUX.1 Kontext [pro] maintient la cohérence des images même après plusieurs éditions et fonctionne à une vitesse de tout premier plan dans l’industrie
- Le modèle open source version [dev] est un transformeur de diffusion 12B allégé, publié en bêta privée pour la recherche et la personnalisation
Présentation de FLUX.1 Kontext
- FLUX.1 Kontext dépasse les limites des modèles existants qui génèrent des images à partir du seul texte : il s’agit d’un modèle génératif de flow matching capable de génération et d’édition d’images fondées sur le contexte en combinant texte et image en entrée
- En exploitant simultanément le prompt textuel et l’image, il permet de supprimer/ajouter/modifier des éléments précis d’une image et de générer de nouvelles scènes en conservant le style ou les caractéristiques existants
Fonctionnalités principales
- Cohérence des personnages : une même personne, un même objet ou un même style reste cohérent à travers différentes scènes et environnements
- Édition locale : il est possible de modifier uniquement une partie spécifique de l’image via des instructions textuelles (ex. : supprimer seulement un élément du visage, ne changer que le texte, etc.)
- Référence de style : permet d’appliquer le style distinctif d’une image de référence à une nouvelle scène
- Vitesse interactive : prend en charge l’édition et la génération en temps réel grâce à une vitesse d’inférence jusqu’à 8 fois plus rapide que celle des modèles existants
Intégration de l’édition texte-image et image-image
- FLUX.1 Kontext conserve la qualité et les caractéristiques de l’image non seulement lors d’une édition unique, mais aussi lors d’instructions itératives sur plusieurs étapes
- En réutilisant de façon continue les prompts et les résultats d’image précédents, il est possible d’atteindre progressivement le résultat souhaité
Gamme de modèles FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- Modèle flagship spécialisé dans l’édition et la génération rapides et itératives
- Reçoit simultanément texte et image de référence, puis effectue de manière rapide et cohérente des éditions de zones ciblées et des transformations de scènes complexes
- FLUX.1 Kontext [max]
- Modèle expérimental haut de gamme, avec une meilleure compréhension des prompts, une typographie améliorée et des capacités d’édition cohérente à haute vitesse renforcées
- FLUX.1 Kontext [dev]
- Modèle allégé (12B) destiné à la recherche et à la personnalisation, publié en bêta privée
- Lors de sa disponibilité publique, il sera proposé via de grands partenaires d’infrastructure IA comme FAL, Replicate, Runware, DataCrunch, TogetherAI et HuggingFace
Support et accès
- La série FLUX.1 Kontext peut être utilisée sur divers services comme KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI ainsi que sur des infrastructures telles que FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
- Via FLUX Playground (https://playground.bfl.ai/), prévu pour l’essai en temps réel et les démonstrations, il est possible de vérifier facilement les performances du modèle et d’examiner les résultats sans intégration supplémentaire
Évaluation des performances
- Évaluation comparative avec des modèles SOTA sur 6 tâches de génération et d’édition d’images via le benchmark maison KontextBench
- Obtient des scores de tout premier plan dans l’industrie en édition de texte et en préservation des personnages
- En vitesse d’inférence, il atteint également une latence écrasante par rapport aux modèles précédemment les plus performants
- Démontre aussi sa compétitivité sur divers critères comme la qualité esthétique, la compréhension des prompts, la typographie et le réalisme
Limites et chantiers futurs
- Lors d’éditions itératives en plusieurs étapes (6 fois ou plus), des artefacts visuels (artifact) peuvent apparaître et dégrader la qualité de l’image
- Il arrive parfois que certains détails d’un prompt ne soient pas suivis avec précision
- Le modèle présente des limites en connaissances du monde et en compréhension contextuelle, ce qui peut conduire à la génération d’images contextuellement inexactes
- Le processus d’allègement du modèle et de distillation peut entraîner une baisse de la qualité d’image
1 commentaires
Avis Hacker News
Je l’ai essayé moi-même et j’ai observé un phénomène amusant de « glissement de contexte » image associée. J’ai créé avec un prompt une image d’un vaisseau spatial atterrissant sur une planète isolée, puis j’ai demandé une retouche du type « rends le vaisseau plus coloré et montre-le plus grand dans l’image ». Et là, le vaisseau s’est transformé en porte-conteneurs. Comme l’historique de chat était conservé, le modèle aurait dû comprendre que je voulais un vaisseau spatial, mais il a raté un élément de contexte important et a produit un résultat complètement à côté.
Je suis en train de le tester directement via le point de terminaison FLUX Kontext Pro de Replicate. Il existe aussi une appli Replicate qui montre plusieurs usages d’édition d’image avec FLUX Kontext : FLUX Kontext Apps. La qualité d’image, dans le cas d’une simple génération image-to-image, est comparable à celle de la génération d’images de GPT-4o. La vitesse de génération est aussi plutôt bonne, autour de 4 secondes. Le prompt engineering semble un peu délicat en dehors des exemples fournis, mais je pense que ça va s’améliorer. Les changements de style ou les demandes détaillées sont bien pris en compte, mais plus on donne des consignes précises, plus le modèle a tendance à ignorer certains détails demandés.
Certains exemples donnent l’impression de ne montrer que les meilleurs résultats. Quelqu’un a essayé l’appli de portraits professionnels de « Kontext Apps » ? lien vers Kontext Apps J’y ai mis plusieurs photos de moi, et à chaque fois je devenais carrément une personne différente. En revanche, le résultat final du portrait faisait effectivement très professionnel.
Je réfléchis à ajouter les modèles FLUX Kontext à mon site de comparaison d’images GenAI. La version Max obtient un score presque deux fois meilleur en fidélité au prompt, mais reste quand même très loin derrière l’OpenAI gpt-image-1 (indépendamment de la qualité visuelle). gpt-image-1 est premier du classement. Je garde Flux 1.D comme référence de base pour les capacités GenAI en local. site de comparaison J’ai aussi récemment ajouté le modèle Hunyuan Image 2.0, mais comme on peut s’y attendre d’un modèle temps réel, son score est faible. À noter que ce modèle de Black Forest Labs semble davantage axé sur l’édition et la retouche itérative d’images existantes que sur le texte-vers-image.
Je me demande si l’image d’entrée est limitée à une seule image. J’aimerais tester des prompts combinés avec plusieurs entrées, du genre « place l’objet de l’image A dans l’image B » ou « mets le personnage A dans le paysage B ».
Pour ceux qui s’intéressent au papier technique, je partage le rapport officiel.
Quel niveau d’expertise faut-il pour modifier ou entraîner ça soi-même en local ? J’ai passé deux jours à essayer de faire du fine-tuning LoRa moi-même avec Flux 1 dev sur un RTX 4090 sous Windows, sans vraiment y arriver. Je me demande jusqu’où il faut creuser, si la barrière d’entrée est raisonnable, si un débutant peut s’y mettre ou si c’est réservé aux personnes expérimentées.
Je ne comprends pas bien l’exemple « remove from face ». S’il n’y a pas d’autre photo du visage, au final le modèle n’utilise pas juste une image générique ?
Quelqu’un demande si le modèle peut générer des images d’échecs. lien vers une prédiction d’IA sur les échecs
Commentaire spéculant sur la date de sortie d’une version développeur ouverte : dans une semaine, ou peut-être dans un ou deux mois.