- FLUX.2 [klein] est une famille de modèles de génération visuelle ultra-rapides qui unifie la génération et l’édition d’images, avec une vitesse d’inférence inférieure à 1 seconde et une compatibilité avec les GPU grand public
- Il prend en charge le texte-vers-image, l’édition d’images et la génération à références multiples dans une architecture unique, tout en conservant une qualité au niveau des grands modèles
- Le modèle 9B est publié sous licence FLUX NCL, tandis que le modèle 4B est proposé sous licence Apache 2.0, facilitant l’accès pour les développeurs et la personnalisation
- Les versions quantifiées FP8 et NVFP4 ont été conçues en collaboration avec NVIDIA, réduisant l’utilisation de la VRAM jusqu’à 55 % et augmentant la vitesse jusqu’à 2,7x
- Il s’agit d’une étape vers la vision d’une « intelligence visuelle interactive », visant la génération en temps réel et l’interaction, avec des usages possibles dans les outils de design et de création de contenu en temps réel
Aperçu de FLUX.2 [klein]
- FLUX.2 [klein] est la famille de modèles de génération d’images la plus rapide dévoilée par Black Forest Labs, unifiant génération et édition dans une seule structure
- La vitesse d’inférence de bout en bout est inférieure à 1 seconde, permettant de générer des images de haute qualité en temps réel
- Il peut fonctionner avec seulement 13 Go de VRAM, ce qui le rend utilisable sur des GPU de type RTX 3090/4070
- Le nom du modèle, « klein », signifie « petit » en allemand et fait référence à une architecture compacte et à une faible latence
- Cependant, ses performances rivalisent avec celles de grands modèles, avec prise en charge de la génération texte-vers-image, de l’édition et de la génération à références multiples
Caractéristiques principales
- Génération ou édition d’images en moins de 0,5 seconde d’inférence
- Réalisme de niveau photographique et grande diversité
- Architecture de modèle unifiée permettant d’exécuter texte-vers-image, image-vers-image et tâches à références multiples dans un seul modèle
- Compatibilité avec les GPU grand public : le modèle 4B fonctionne avec environ 13 Go de VRAM
- Approche favorable aux développeurs renforcée : le modèle 4B est publié sous Apache 2.0, le 9B sous FLUX NCL
- Disponibilité via API et open weights, permettant à la fois l’exécution en local et le déploiement en production
Composition de la gamme
FLUX.2 [klein] 9B
- Modèle principal, définissant l’équilibre entre qualité et latence
- En texte-vers-image, édition à référence unique et génération à références multiples, il offre des performances équivalentes ou supérieures à celles de modèles 5 fois plus grands
- Moins de 0,5 seconde d’inférence
- Basé sur un modèle de flux 9B et un text embedder Qwen3 8B
- Architecture d’inférence en 4 étapes (step-distilled) pour maximiser l’efficacité
- Licence : FLUX NCL
FLUX.2 [klein] 4B
- Modèle entièrement ouvert sous licence Apache 2.0
- Exécutable sur des GPU grand public comme les RTX 3090/4070
- Prend en charge texte-vers-image (T2I), image-vers-image (I2I) et génération à références multiples
- Malgré sa taille réduite, il offre une qualité élevée au regard de sa taille
- Adapté au développement local et au déploiement en edge
FLUX.2 [klein] Base 9B / 4B
- Versions non distillées (full-capacity), conservant intégralement les signaux d’entraînement
- Adaptées au fine-tuning, à l’entraînement LoRA et aux pipelines de recherche
- Offrent une plus grande diversité de sortie que les modèles distillés
- Licence : Base 4B sous Apache 2.0, Base 9B sous FLUX NCL
Versions quantifiées
- Publication des versions FP8 et NVFP4 en collaboration avec NVIDIA
- FP8 : jusqu’à 1,6x plus rapide et 40 % de VRAM en moins
- NVFP4 : jusqu’à 2,7x plus rapide et 55 % de VRAM en moins
- Benchmarks T2I en 1024×1024 réalisés sur RTX 5080/5090
- Le même schéma de licence est conservé : 4B sous Apache 2.0, 9B sous FLUX NCL
Analyse des performances
- FLUX.2 [klein] atteint une qualité équivalente ou supérieure à Qwen, avec une latence plus faible et une consommation de VRAM réduite
- Il surpasse Z-Image et prend en charge le texte-vers-image ainsi que l’édition à références multiples dans un modèle unique
- Les versions Base sont un peu moins rapides, mais offrent une meilleure aptitude à la personnalisation et à la recherche
- Les mesures de vitesse ont été réalisées en environnement GB200 (bf16)
Vision de l’intelligence visuelle interactive
- FLUX.2 [klein] représente plus qu’un simple gain de vitesse : c’est une avancée vers une intelligence visuelle interactive en temps réel
- Il vise des systèmes capables de voir, créer et itérer
- Cela ouvre la voie à de nouveaux domaines d’application comme les outils de design en temps réel, le raisonnement visuel et la création de contenu interactive
Ressources et accès
Aucun commentaire pour le moment.