8 points par GN⁺ 2025-06-29 | 1 commentaires | Partager sur WhatsApp
  • FLUX.1 Kontext [dev] est désormais disponible gratuitement en version open weights d’un modèle d’édition d’images génératives auparavant propriétaire
  • Avec 12B paramètres, il peut fonctionner sur du matériel grand public et est distribué gratuitement pour la recherche et les usages non commerciaux
  • Il offre des performances d’édition d’images de haute qualité de niveau commercial, avec édition locale/globale fine, maintien de la cohérence des personnages et modifications itératives, et s’intègre immédiatement à des frameworks populaires comme ComfyUI, Hugging Face Diffusers et TensorRT
  • Lors des évaluations de performance, il a montré de meilleurs résultats que des modèles ouverts et fermés existants (par ex. Google's Gemini-Flash Image)
  • Des variantes TensorRT optimisées pour l’architecture NVIDIA Blackwell (BF16, FP8, FP4) sont également proposées, permettant des gains importants de vitesse et d’efficacité sur le matériel le plus récent
  • Grâce à une licence commerciale et à un portail en self-service, les entreprises peuvent aussi l’intégrer et l’exploiter facilement

Présentation et importance

  • FLUX.1 Kontext [dev] est le dernier modèle d’édition d’images génératives publié par Black Forest Labs
  • Jusqu’à présent, la plupart des excellents modèles de génération/édition d’images étaient proposés de façon propriétaire, mais ils passent désormais en open weights, ce qui les rend accessibles à tous pour la recherche et les usages non commerciaux
  • Ce modèle est composé de 12B paramètres, offrant d’excellentes performances tout en conservant une efficacité suffisante pour fonctionner sur du matériel grand public

Publication et accessibilité

  • FLUX.1 Kontext [dev] est publié sous la licence non commerciale FLUX.1, et mis gratuitement à disposition des utilisateurs à des fins de recherche et d’usages non commerciaux
  • Les poids du modèle peuvent être téléchargés facilement sur HuggingFace et sont compatibles avec les principaux frameworks d’IA comme ComfyUI, HuggingFace Diffusers et TensorRT
  • Des partenaires comme FAL, Replicate, Runware, DataCrunch et TogetherAI fournissent des endpoints API et du code immédiatement exploitables dans le cloud comme en local

Un nouveau standard pour l’édition d’images

  • FLUX.1 Kontext [dev] est spécialisé dans les tâches d’édition d’images
    • Excellente préservation des personnages lors d’éditions itératives et dans des scènes et environnements variés
    • Prise en charge de retouches locales précises et d’éditions globales
  • Black Forest Labs vise à proposer des outils ouverts capables de rivaliser avec les modèles propriétaires
  • Sur de grands benchmarks (comme KontextBench), il a démontré des performances supérieures à des modèles ouverts existants comme ByteDance Bagel et HiDream-E1-Full, ainsi qu’à des modèles commerciaux comme Google Gemini-Flash Image
  • Des évaluations indépendantes par des organismes externes comme Artificial Analysis confirment également ces résultats

Optimisation matérielle et diversité des options

  • En collaboration avec NVIDIA, des poids TensorRT optimisés pour la dernière architecture Blackwell sont proposés (versions BF16, FP8 et FP4 optimisées pour l’énergie et la vitesse)
  • Les développeurs peuvent ainsi choisir facilement, selon leurs besoins, le bon équilibre entre vitesse, efficacité et qualité

Licence et portail pour les usages commerciaux

  • Black Forest Labs a ouvert un portail de licences self-service avec des conditions transparentes, afin de simplifier l’accès commercial et non commercial à tous ses modèles open weights
  • Les entreprises peuvent acheter facilement une licence sur le portail, puis intégrer rapidement les modèles de la gamme FLUX.1 dans leurs services métier

Mises à jour de la licence

  • La définition des usages non commerciaux a été clarifiée afin de préciser concrètement les autorisations et restrictions
  • Une clause de filtrage de contenu a été ajoutée pour empêcher la génération de contenus illégaux ou portant atteinte à des droits, et pour renforcer les clauses de non-responsabilité associées
  • La gestion de la provenance des contenus et de l’historique de génération est encadrée pour garantir le respect des réglementations applicables
  • Des exemples clairs et des limitations supplémentaires ont été ajoutés pour les cas d’usage non autorisés

Références et support

1 commentaires

 
GN⁺ 2025-06-29
Avis Hacker News
  • Le fait que BFL ait publié les poids est vraiment remarquable, et dans la réalité où la viabilité financière de l’open source est difficile, je pense qu’un modèle où c’est gratuit pour le monde académique et où les startups paient des frais de licence raisonnables est ce qui permet à BFL et à d’autres de continuer à publier des modèles à poids ouverts

    • Si BFL devait payer à l’avance des frais d’autorisation explicites pour tous les contenus d’image et de vidéo qu’ils utilisent, je pense que ce modèle serait financièrement intenable
  • Ce qui est intéressant avec la publication des poids ouverts, c’est qu’on peut ajouter de nouvelles fonctionnalités (tâches) à ce type de modèle d’édition

    • Il semble bien généraliser même avec peu d’exemples (environ 30), et cela a été partagé sur le blog
      • Cette version de Kontext est celle que tout le monde attendait, et elle paraît beaucoup plus pratique
      • C’est le premier exemple d’une nouvelle génération de modèles de génération d’images pouvant être entraînés, ce qui n’était pas possible avec les grands modèles existants comme Gemini, GPT ou MJ
  • J’espère que le modèle Dev distillé conservera des performances suffisantes même face aux modèles Pro/Max plus gros

    • J’espère aussi que ce modèle pourra complètement remplacer, sur plusieurs points, des techniques d’inpainting plus anciennes comme Stable Diffusion
    • On peut voir ici des expériences avant/après d’édition d’images avec Kontext
  • J’ai utilisé moi-même ce système lors d’un hackathon à San Francisco la semaine dernière, et j’ai trouvé l’ensemble assez impressionnant

    • Je suis curieux de voir quels projets les gens ont créés pendant ce hackathon
  • L’intention de la licence donne l’impression de jouer le rôle d’un filtre préalable qui limite déjà le type de personnes pouvant y accéder

    • Même si elle est formellement ouverte, sa portée réelle se rétrécit, et ce type de configuration a pour effet de normaliser qui peut tenter quoi
    • Cela a l’avantage de prévenir les abus, mais peut aussi écarter des usages utiles, et tend finalement à modifier subtilement jusqu’aux critères des nouvelles expérimentations
  • La nouvelle licence pour usage non commercial est assez restrictive, et on peut consulter le texte intégral de la licence

    • Si on l’interprète correctement, elle interdit l’usage en environnement commercial, même si l’objectif n’est pas de créer des dérivés mais simplement de produire des résultats
    • Je me demande exactement à quoi cette licence s’applique, car à part peut-être du code Python facilement réimplémentable, je pense qu’il n’y a probablement pas de droit d’auteur
    • Selon ce point de vue, les poids du modèle ne sont pas une œuvre créative pouvant bénéficier d’une protection par droit d’auteur autant que les entreprises le souhaiteraient, et ils n’entrent pas non plus dans la définition juridique du droit d’auteur
    • Contrairement à une base de données ou à un logiciel, les poids d’un modèle ne remplissent pas les critères du droit d’auteur, et peu importe le degré de créativité impliqué, ils ne relèvent pas de la protection du droit d’auteur
  • J’aimerais utiliser un modèle comme Kontext pour terminer une image sur un canvas en collaborant avec l’IA en temps réel

    • J’espère vraiment voir apparaître une expérience de type « partenaire de peinture en temps réel », qui combinerait les avancées en prévision de séries temporelles dans le domaine des LLM avec des éléments comme le dataset Google Quick Draw, pour finir une image en dialoguant au pinceau
      • En essayant le modèle Kontext de Fal.ai, la fonction de curseur avant/après et la possibilité de corriger en continu avec l’image éditée sont particulièrement impressionnantes
      • Maintenant que BFL a aussi publié le modèle dev, j’aimerais vraiment voir arriver un plugin Kontext pour Krita, sachant qu’il existe déjà un plugin pour Stable Diffusion
      • Lien de référence du plugin Krita
  • Je me demande sur quelle quantité de VRAM ce système peut tourner

    • À l’heure actuelle, il faut environ 18 à 20 Go de VRAM, mais demain ou dans un futur proche, avec environ une heure de marge, il pourrait fonctionner même avec 4 Go de VRAM
  • C’est dommage que la licence soit restrictive