- FLUX.2 [klein] est une famille de modèles de génération visuelle ultra-rapides qui unifie la génération et l’édition d’images, avec une vitesse d’inférence inférieure à 1 seconde et une compatibilité avec les GPU grand public
- Il prend en charge le texte-vers-image, l’édition d’images et la génération à références multiples dans une architecture unique, tout en conservant une qualité au niveau des grands modèles
- Le modèle 9B est publié sous licence FLUX NCL, tandis que le modèle 4B est proposé sous licence Apache 2.0, facilitant l’accès pour les développeurs et la personnalisation
- Les versions quantifiées FP8 et NVFP4 ont été conçues en collaboration avec NVIDIA, réduisant l’utilisation de la VRAM jusqu’à 55 % et augmentant la vitesse jusqu’à 2,7x
- Il s’agit d’une étape vers la vision d’une « intelligence visuelle interactive », visant la génération en temps réel et l’interaction, avec des usages possibles dans les outils de design et de création de contenu en temps réel
Aperçu de FLUX.2 [klein]
- FLUX.2 [klein] est la famille de modèles de génération d’images la plus rapide dévoilée par Black Forest Labs, unifiant génération et édition dans une seule structure
- La vitesse d’inférence de bout en bout est inférieure à 1 seconde, permettant de générer des images de haute qualité en temps réel
- Il peut fonctionner avec seulement 13 Go de VRAM, ce qui le rend utilisable sur des GPU de type RTX 3090/4070
- Le nom du modèle, « klein », signifie « petit » en allemand et fait référence à une architecture compacte et à une faible latence
- Cependant, ses performances rivalisent avec celles de grands modèles, avec prise en charge de la génération texte-vers-image, de l’édition et de la génération à références multiples
Caractéristiques principales
- Génération ou édition d’images en moins de 0,5 seconde d’inférence
- Réalisme de niveau photographique et grande diversité
- Architecture de modèle unifiée permettant d’exécuter texte-vers-image, image-vers-image et tâches à références multiples dans un seul modèle
- Compatibilité avec les GPU grand public : le modèle 4B fonctionne avec environ 13 Go de VRAM
- Approche favorable aux développeurs renforcée : le modèle 4B est publié sous Apache 2.0, le 9B sous FLUX NCL
- Disponibilité via API et open weights, permettant à la fois l’exécution en local et le déploiement en production
Composition de la gamme
FLUX.2 [klein] 9B
- Modèle principal, définissant l’équilibre entre qualité et latence
- En texte-vers-image, édition à référence unique et génération à références multiples, il offre des performances équivalentes ou supérieures à celles de modèles 5 fois plus grands
- Moins de 0,5 seconde d’inférence
- Basé sur un modèle de flux 9B et un text embedder Qwen3 8B
- Architecture d’inférence en 4 étapes (step-distilled) pour maximiser l’efficacité
- Licence : FLUX NCL
FLUX.2 [klein] 4B
- Modèle entièrement ouvert sous licence Apache 2.0
- Exécutable sur des GPU grand public comme les RTX 3090/4070
- Prend en charge texte-vers-image (T2I), image-vers-image (I2I) et génération à références multiples
- Malgré sa taille réduite, il offre une qualité élevée au regard de sa taille
- Adapté au développement local et au déploiement en edge
FLUX.2 [klein] Base 9B / 4B
- Versions non distillées (full-capacity), conservant intégralement les signaux d’entraînement
- Adaptées au fine-tuning, à l’entraînement LoRA et aux pipelines de recherche
- Offrent une plus grande diversité de sortie que les modèles distillés
- Licence : Base 4B sous Apache 2.0, Base 9B sous FLUX NCL
Versions quantifiées
- Publication des versions FP8 et NVFP4 en collaboration avec NVIDIA
- FP8 : jusqu’à 1,6x plus rapide et 40 % de VRAM en moins
- NVFP4 : jusqu’à 2,7x plus rapide et 55 % de VRAM en moins
- Benchmarks T2I en 1024×1024 réalisés sur RTX 5080/5090
- Le même schéma de licence est conservé : 4B sous Apache 2.0, 9B sous FLUX NCL
Analyse des performances
- FLUX.2 [klein] atteint une qualité équivalente ou supérieure à Qwen, avec une latence plus faible et une consommation de VRAM réduite
- Il surpasse Z-Image et prend en charge le texte-vers-image ainsi que l’édition à références multiples dans un modèle unique
- Les versions Base sont un peu moins rapides, mais offrent une meilleure aptitude à la personnalisation et à la recherche
- Les mesures de vitesse ont été réalisées en environnement GB200 (bf16)
Vision de l’intelligence visuelle interactive
- FLUX.2 [klein] représente plus qu’un simple gain de vitesse : c’est une avancée vers une intelligence visuelle interactive en temps réel
- Il vise des systèmes capables de voir, créer et itérer
- Cela ouvre la voie à de nouveaux domaines d’application comme les outils de design en temps réel, le raisonnement visuel et la création de contenu interactive
Ressources et accès
- Essai : Demo, Playground
- Hugging Face Space : klein 9B, klein 4B
- Ressources de développement : documentation, GitHub, poids du modèle
- Informations supplémentaires : page officielle du modèle
2 commentaires
Ah, sur Mac, ça ne va pas marcher alors. Il dit
No GPU or XPU found, haha,,Commentaires sur Hacker News
Je n’ai pas encore ajouté Klein à mon site GenAI Showdown
Mais si c’est comparable à Z-Image Turbo, les performances devraient être excellentes
À titre de comparaison, Z-Image Turbo a obtenu 4 points sur 15, ce qui est assez impressionnant quand on considère que Flux.2 (32b), un modèle bien plus gros, n’a obtenu qu’un seul point de plus
Les résultats de comparaison des modèles locaux sont disponibles ici
Des tests fondés sur des données structurées peuvent donner une fausse confiance. Désormais, le simple text-to-image n’est plus un bon benchmark
C’est impressionnant de voir les modèles devenir de plus en plus petits tout en gagnant en qualité et en efficacité
Z-Image Turbo est vraiment remarquable, et j’ai hâte d’essayer ce modèle aussi
Un ancien fil lié au sujet est disponible ici
Un modèle de 100 Go est difficile à télécharger et à exécuter, alors qu’un modèle de 4 Go peut être essayé immédiatement par la plupart des développeurs
La différence est particulièrement visible pour les personnes, les artistes et certains objets spécifiques
Après GPT 3.5, Deepseek s’est entraîné à un coût bien inférieur, et aujourd’hui des modèles qui dépassent 3.5 tournent même sur un laptop. On peut se demander jusqu’où cela peut encore descendre
Ce modèle n’arrive pas à créer une image de pogo stick
J’ai essayé de générer « un tigre sautant sur un pogo stick », mais il n’a même pas réussi à produire le pogo stick lui-même
Ce type de manipulation physique reste hors de portée des modèles pour l’instant, donc les métiers concernés semblent encore tranquilles pour un moment
Des échantillons de plusieurs modèles sont visibles ici
Pour représenter un objet précis comme un « pogo stick », les petits modèles ont besoin d’un prompt supplémentaire
Si le modèle avait une capacité de raisonnement suffisante, il pourrait combler ses lacunes à partir d’images de référence externes, mais ce n’est pas encore le cas
Exemple de tigre, ceci n’est pas un pogo stick, exemple avec Nano Banana Pro
FLUX.2 [klein] 4B est présenté comme la version la plus rapide de la famille Klein, conçue pour les aperçus en temps réel ou les environnements de production sensibles à la latence
Je me demande dans quels cas cela correspond vraiment
La vitesse est particulièrement importante pour les tâches d’édition d’image
Au début, j’ai cru qu’il s’agissait de l’application F.lux qui rend l’écran orange la nuit
Aujourd’hui, cette fonction est intégrée par défaut à pratiquement tous les OS, donc elle n’est plus vraiment nécessaire
Si on considère les modèles de GenAI comme des implémentations compressées, le texte se compresse bien, mais pas autant les images et les vidéos
Pourtant, les modèles récents de text-to-image et text-to-video sont bien plus petits que des LLM comme Llama-3
Cela vient peut-être du fait que nous n’avons appris qu’une zone étroite centrée sur l’humain du monde visuel. Il reste encore beaucoup d’espace de combinaisons visuelles inexploré
Si l’on parle d’une compression avec perte imperceptible pour l’humain, les images pourraient au contraire être plus efficaces
Le texte tourne autour de 4:1 à 6:1, alors que les images restent visuellement sans perte au-delà de 10:1, et la vidéo est encore plus efficace grâce à la cohérence temporelle
En même temps, il ne faut pas sous-estimer la quantité de méta-connaissances qu’ils embarquent implicitement
Je me demande si quelqu’un ici a essayé Flux 2 Klein
Pour ma part, je ne cours plus après chaque nouveau modèle, et je construis désormais toute mon app autour de Nano Banana Pro
Le résultat me satisfait largement
picxstudio.com
Je me suis beaucoup amusé avec Flux 1, et en ce moment je joue avec Z-Image Turbo
J’essaierai Flux2 Klein quand il sera ajouté à Invoke
Je me demande comment se comportent les capacités interactives par rapport à la version GPT
J’aime le fait qu’il s’agisse d’une petite version publiée en open source
Cela ouvre beaucoup d’opportunités, car on peut l’exécuter sans budget gigantesque
Le gain de vitesse est aussi assez impressionnant