3 points par GN⁺ 2025-05-30 | 1 commentaires | Partager sur WhatsApp
  • FLUX.1 Kontext de Black Forest Labs est un modèle d’IA générative de dernière génération capable de recevoir simultanément du texte et des images en entrée, de comprendre le contexte et de modifier ou générer instantanément tout en conservant les caractéristiques et le style d’une image existante
  • Par rapport aux algorithmes traditionnels de génération texte-image, il offre de meilleures performances en cohérence du texte et des objets, en édition locale, en référence de style et en rapidité de réponse
  • Les utilisateurs peuvent saisir uniquement du texte, ou combiner image et texte pour ne modifier qu’une zone précise, appliquer uniquement un style, ou effectuer des éditions en plusieurs étapes, ce qui permet divers travaux d’image interactifs
  • FLUX.1 Kontext [pro] maintient la cohérence des images même après plusieurs éditions et fonctionne à une vitesse de tout premier plan dans l’industrie
  • Le modèle open source version [dev] est un transformeur de diffusion 12B allégé, publié en bêta privée pour la recherche et la personnalisation

Présentation de FLUX.1 Kontext

  • FLUX.1 Kontext dépasse les limites des modèles existants qui génèrent des images à partir du seul texte : il s’agit d’un modèle génératif de flow matching capable de génération et d’édition d’images fondées sur le contexte en combinant texte et image en entrée
  • En exploitant simultanément le prompt textuel et l’image, il permet de supprimer/ajouter/modifier des éléments précis d’une image et de générer de nouvelles scènes en conservant le style ou les caractéristiques existants

Fonctionnalités principales

  • Cohérence des personnages : une même personne, un même objet ou un même style reste cohérent à travers différentes scènes et environnements
  • Édition locale : il est possible de modifier uniquement une partie spécifique de l’image via des instructions textuelles (ex. : supprimer seulement un élément du visage, ne changer que le texte, etc.)
  • Référence de style : permet d’appliquer le style distinctif d’une image de référence à une nouvelle scène
  • Vitesse interactive : prend en charge l’édition et la génération en temps réel grâce à une vitesse d’inférence jusqu’à 8 fois plus rapide que celle des modèles existants

Intégration de l’édition texte-image et image-image

  • FLUX.1 Kontext conserve la qualité et les caractéristiques de l’image non seulement lors d’une édition unique, mais aussi lors d’instructions itératives sur plusieurs étapes
  • En réutilisant de façon continue les prompts et les résultats d’image précédents, il est possible d’atteindre progressivement le résultat souhaité

Gamme de modèles FLUX.1 Kontext

  • FLUX.1 Kontext [pro]
    • Modèle flagship spécialisé dans l’édition et la génération rapides et itératives
    • Reçoit simultanément texte et image de référence, puis effectue de manière rapide et cohérente des éditions de zones ciblées et des transformations de scènes complexes
  • FLUX.1 Kontext [max]
    • Modèle expérimental haut de gamme, avec une meilleure compréhension des prompts, une typographie améliorée et des capacités d’édition cohérente à haute vitesse renforcées
  • FLUX.1 Kontext [dev]
    • Modèle allégé (12B) destiné à la recherche et à la personnalisation, publié en bêta privée
    • Lors de sa disponibilité publique, il sera proposé via de grands partenaires d’infrastructure IA comme FAL, Replicate, Runware, DataCrunch, TogetherAI et HuggingFace

Support et accès

  • La série FLUX.1 Kontext peut être utilisée sur divers services comme KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI ainsi que sur des infrastructures telles que FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
  • Via FLUX Playground (https://playground.bfl.ai/), prévu pour l’essai en temps réel et les démonstrations, il est possible de vérifier facilement les performances du modèle et d’examiner les résultats sans intégration supplémentaire

Évaluation des performances

  • Évaluation comparative avec des modèles SOTA sur 6 tâches de génération et d’édition d’images via le benchmark maison KontextBench
  • Obtient des scores de tout premier plan dans l’industrie en édition de texte et en préservation des personnages
  • En vitesse d’inférence, il atteint également une latence écrasante par rapport aux modèles précédemment les plus performants
  • Démontre aussi sa compétitivité sur divers critères comme la qualité esthétique, la compréhension des prompts, la typographie et le réalisme

Limites et chantiers futurs

  • Lors d’éditions itératives en plusieurs étapes (6 fois ou plus), des artefacts visuels (artifact) peuvent apparaître et dégrader la qualité de l’image
  • Il arrive parfois que certains détails d’un prompt ne soient pas suivis avec précision
  • Le modèle présente des limites en connaissances du monde et en compréhension contextuelle, ce qui peut conduire à la génération d’images contextuellement inexactes
  • Le processus d’allègement du modèle et de distillation peut entraîner une baisse de la qualité d’image

1 commentaires

 
GN⁺ 2025-05-30
Avis Hacker News
  • Je l’ai essayé moi-même et j’ai observé un phénomène amusant de « glissement de contexte » image associée. J’ai créé avec un prompt une image d’un vaisseau spatial atterrissant sur une planète isolée, puis j’ai demandé une retouche du type « rends le vaisseau plus coloré et montre-le plus grand dans l’image ». Et là, le vaisseau s’est transformé en porte-conteneurs. Comme l’historique de chat était conservé, le modèle aurait dû comprendre que je voulais un vaisseau spatial, mais il a raté un élément de contexte important et a produit un résultat complètement à côté.

  • Je suis en train de le tester directement via le point de terminaison FLUX Kontext Pro de Replicate. Il existe aussi une appli Replicate qui montre plusieurs usages d’édition d’image avec FLUX Kontext : FLUX Kontext Apps. La qualité d’image, dans le cas d’une simple génération image-to-image, est comparable à celle de la génération d’images de GPT-4o. La vitesse de génération est aussi plutôt bonne, autour de 4 secondes. Le prompt engineering semble un peu délicat en dehors des exemples fournis, mais je pense que ça va s’améliorer. Les changements de style ou les demandes détaillées sont bien pris en compte, mais plus on donne des consignes précises, plus le modèle a tendance à ignorer certains détails demandés.

    • En regardant à quel point il préserve bien les propriétés d’origine, j’ai l’impression que les modèles FLUX sont plus précis que 4o. Si on demande par exemple de ne changer que l’éclairage d’un personnage animalier 3D existant, 4o a tendance à abîmer le visage du personnage ou à modifier le corps et d’autres détails, alors que FLUX conserve presque parfaitement la forme visible à l’identique, même quand on change fortement la pose ou la lumière.
    • C’est plus impressionnant que GPT-4o dans mes essais image-to-image. 4o semble avoir une forte obsession pour les tons sépia, et ça se voit particulièrement lors d’éditions répétées : on reconnaît tout de suite que le résultat vient de 4o. À l’inverse, FLUX.1 Kontext Max offre une palette beaucoup plus large et variée, et capte même de petits détails que 4o laisserait passer. Je n’ai pas encore testé la génération d’une image entièrement nouvelle à partir du seul prompt. En revanche, pour éditer une image existante à partir d’un prompt, FLUX me paraît très nettement supérieur.
    • J’aime vraiment le fait que Replicate propose toujours immédiatement les tout derniers modèles. Dans cette époque d’IA qui évolue à toute vitesse, c’est impressionnant de voir de nouvelles versions issues de la recherche être déployées aussitôt en API et pouvoir être utilisées à grande échelle en production. Des distributeurs comme Replicate semblent multiplier plusieurs fois l’impact de la publication de ces modèles.
    • Je me demande sur quel GPU et quelle quantité de VRAM se base ce chiffre d’environ 4 secondes. Tu parles peut-être de l’interface Hugging Face ?
  • Certains exemples donnent l’impression de ne montrer que les meilleurs résultats. Quelqu’un a essayé l’appli de portraits professionnels de « Kontext Apps » ? lien vers Kontext Apps J’y ai mis plusieurs photos de moi, et à chaque fois je devenais carrément une personne différente. En revanche, le résultat final du portrait faisait effectivement très professionnel.

    • J’ai essayé le prompt headshot dans le playground flux à partir d’un selfie fatigué pris à la salle de sport, et ça a conservé la même expression, la sueur, le teint de peau et la plupart de mes traits. On aurait dit que seul l’arrière-plan avait changé. Puis j’ai demandé quelque chose de plus développé du genre « transforme-la en bon portrait pour les réseaux sociaux, avec sourire, bonne posture et bonne tenue, peau propre sans sueur, etc. », et le modèle a surtout changé les vêtements en ajoutant un sourire un peu étrange. C’est assez proche de ce qu’on voit réellement sortir sur ce type d’images.
    • Je me demande si les ratios des images d’entrée et de sortie sont les mêmes. Si le ratio est forcé à changer, ça semble provoquer des résultats bizarres.
    • La préservation de l’identité, notamment du visage, est un problème que personne n’a encore parfaitement résolu. Comme les mains, c’est un défi scientifique.
  • Je réfléchis à ajouter les modèles FLUX Kontext à mon site de comparaison d’images GenAI. La version Max obtient un score presque deux fois meilleur en fidélité au prompt, mais reste quand même très loin derrière l’OpenAI gpt-image-1 (indépendamment de la qualité visuelle). gpt-image-1 est premier du classement. Je garde Flux 1.D comme référence de base pour les capacités GenAI en local. site de comparaison J’ai aussi récemment ajouté le modèle Hunyuan Image 2.0, mais comme on peut s’y attendre d’un modèle temps réel, son score est faible. À noter que ce modèle de Black Forest Labs semble davantage axé sur l’édition et la retouche itérative d’images existantes que sur le texte-vers-image.

    • J’aimerais que tu ajoutes aussi « Flux 1.1 Pro Ultra » au site. C’est apparemment le plus performant de cette série, avec une fidélité au prompt bien supérieure à Flux Dev. Ça permettrait une comparaison plus équitable avec l’un des meilleurs modèles open source. Le site lui-même est sympa, et les prompts sont intéressants.
    • Ma suggestion : ce genre de prompt de scène, aucun modèle ancien n’a jamais vraiment réussi à bien le rendre. J’imagine que ça a dû beaucoup s’améliorer récemment…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      C’est étonnant que les résultats soient encore aussi mauvais alors qu’il devrait y avoir largement assez de données. C’est pourtant une scène assez iconique.
    • Demande d’ajout au site faite, je le consulte avec intérêt.
  • Je me demande si l’image d’entrée est limitée à une seule image. J’aimerais tester des prompts combinés avec plusieurs entrées, du genre « place l’objet de l’image A dans l’image B » ou « mets le personnage A dans le paysage B ».

    • Il est possible d’entrer plusieurs images dans le mode expérimental « multi ».
    • On peut utiliser l’interface multi-image sur Fal, et il y en a probablement aussi une sur Replicate (je n’ai pas vérifié). Ce modèle est extrêmement performant. Il n’est pas meilleur que gpt-image-1, mais il s’en approche vraiment. Je pense qu’il n’y aura bientôt plus de barrière monopolistique sur l’image ou la vidéo. Il y avait des craintes que Google ou OpenAI monopolisent le marché de la créativité, mais désormais n’importe qui peut créer directement.
  • Pour ceux qui s’intéressent au papier technique, je partage le rapport officiel.

    • L’implémentation semble assez simple, de façon comparable à d’autres modèles open source (HiDream-E1, ICEdit, DreamO, etc.). La vraie différence semble venir de la curation des données, mais cette partie n’est décrite que brièvement dans l’article.
    • La plupart des gens ne s’intéressent pas vraiment au papier lui-même ; ce qu’ils veulent, c’est télécharger un modèle open weights et l’exécuter eux-mêmes. La plupart se contentent de l’utiliser, presque personne ne contribue.
  • Quel niveau d’expertise faut-il pour modifier ou entraîner ça soi-même en local ? J’ai passé deux jours à essayer de faire du fine-tuning LoRa moi-même avec Flux 1 dev sur un RTX 4090 sous Windows, sans vraiment y arriver. Je me demande jusqu’où il faut creuser, si la barrière d’entrée est raisonnable, si un débutant peut s’y mettre ou si c’est réservé aux personnes expérimentées.

    • Le modèle open source n’a pas encore été publié, et ce ne sera certainement pas plus simple qu’un entraînement LoRA sur Flux 1 Dev.
    • Je recommande d’utiliser le script SimpleTuner. J’ai pu faire mon propre fine-tuning LoRa sans bien connaître les bibliothèques Python.
    • On trouve souvent facilement des versions configurées pour comfyui. Certains youtubeurs les distribuent aussi comme récompense sur Patreon, par exemple.
    • Si ça ne marche pas avec un RTX 4090 + Windows, c’est peut-être le système Windows le problème. Les vraies performances se révèlent sous Linux.
  • Je ne comprends pas bien l’exemple « remove from face ». S’il n’y a pas d’autre photo du visage, au final le modèle n’utilise pas juste une image générique ?

    • Il ne restaure pas quelque chose de réel ; ce ne sont que des images générées. Il n’y a pas de vrai visage.
    • En regardant l’exemple de près, si un objet précis cache partiellement le visage, le modèle peut peut-être l’inférer et le reconstituer.
    • Ça dépend du stade auquel se trouve le modèle de base ; certains modèles d’identité peuvent interpoler un visage de manière assez fine à partir d’une géométrie partielle.
    • Le diaporama du premier exemple semble lui-même avoir un bug. Des flocons de neige couvrent presque tout le visage.
    • Avec de vraies photos, le modèle change souvent le visage, donc ils utilisent peut-être volontairement des exemples où le visage n’est pas visible du tout.
  • Quelqu’un demande si le modèle peut générer des images d’échecs. lien vers une prédiction d’IA sur les échecs

  • Commentaire spéculant sur la date de sortie d’une version développeur ouverte : dans une semaine, ou peut-être dans un ou deux mois.