FLUX.2 [klein] : vers une intelligence visuelle interactive

(bfl.ai)

5 points par GN⁺ 2026-01-19 | 2 commentaires | Partager sur WhatsApp

FLUX.2 [klein] est une famille de modèles de génération visuelle ultra-rapides qui unifie la génération et l’édition d’images, avec une vitesse d’inférence inférieure à 1 seconde et une compatibilité avec les GPU grand public
Il prend en charge le texte-vers-image, l’édition d’images et la génération à références multiples dans une architecture unique, tout en conservant une qualité au niveau des grands modèles
Le modèle 9B est publié sous licence FLUX NCL, tandis que le modèle 4B est proposé sous licence Apache 2.0, facilitant l’accès pour les développeurs et la personnalisation
Les versions quantifiées FP8 et NVFP4 ont été conçues en collaboration avec NVIDIA, réduisant l’utilisation de la VRAM jusqu’à 55 % et augmentant la vitesse jusqu’à 2,7x
Il s’agit d’une étape vers la vision d’une « intelligence visuelle interactive », visant la génération en temps réel et l’interaction, avec des usages possibles dans les outils de design et de création de contenu en temps réel

Aperçu de FLUX.2 [klein]

FLUX.2 [klein] est la famille de modèles de génération d’images la plus rapide dévoilée par Black Forest Labs, unifiant génération et édition dans une seule structure
- La vitesse d’inférence de bout en bout est inférieure à 1 seconde, permettant de générer des images de haute qualité en temps réel
- Il peut fonctionner avec seulement 13 Go de VRAM, ce qui le rend utilisable sur des GPU de type RTX 3090/4070
Le nom du modèle, « klein », signifie « petit » en allemand et fait référence à une architecture compacte et à une faible latence
- Cependant, ses performances rivalisent avec celles de grands modèles, avec prise en charge de la génération texte-vers-image, de l’édition et de la génération à références multiples

Caractéristiques principales

Génération ou édition d’images en moins de 0,5 seconde d’inférence
Réalisme de niveau photographique et grande diversité
Architecture de modèle unifiée permettant d’exécuter texte-vers-image, image-vers-image et tâches à références multiples dans un seul modèle
Compatibilité avec les GPU grand public : le modèle 4B fonctionne avec environ 13 Go de VRAM
Approche favorable aux développeurs renforcée : le modèle 4B est publié sous Apache 2.0, le 9B sous FLUX NCL
Disponibilité via API et open weights, permettant à la fois l’exécution en local et le déploiement en production

Composition de la gamme

FLUX.2 [klein] 9B

Modèle principal, définissant l’équilibre entre qualité et latence
- En texte-vers-image, édition à référence unique et génération à références multiples, il offre des performances équivalentes ou supérieures à celles de modèles 5 fois plus grands
- Moins de 0,5 seconde d’inférence
- Basé sur un modèle de flux 9B et un text embedder Qwen3 8B
- Architecture d’inférence en 4 étapes (step-distilled) pour maximiser l’efficacité
Licence : FLUX NCL

FLUX.2 [klein] 4B

Modèle entièrement ouvert sous licence Apache 2.0
- Exécutable sur des GPU grand public comme les RTX 3090/4070
- Prend en charge texte-vers-image (T2I), image-vers-image (I2I) et génération à références multiples
- Malgré sa taille réduite, il offre une qualité élevée au regard de sa taille
- Adapté au développement local et au déploiement en edge

FLUX.2 [klein] Base 9B / 4B

Versions non distillées (full-capacity), conservant intégralement les signaux d’entraînement
- Adaptées au fine-tuning, à l’entraînement LoRA et aux pipelines de recherche
- Offrent une plus grande diversité de sortie que les modèles distillés
Licence : Base 4B sous Apache 2.0, Base 9B sous FLUX NCL

Versions quantifiées

Publication des versions FP8 et NVFP4 en collaboration avec NVIDIA
- FP8 : jusqu’à 1,6x plus rapide et 40 % de VRAM en moins
- NVFP4 : jusqu’à 2,7x plus rapide et 55 % de VRAM en moins
- Benchmarks T2I en 1024×1024 réalisés sur RTX 5080/5090
Le même schéma de licence est conservé : 4B sous Apache 2.0, 9B sous FLUX NCL

Analyse des performances

FLUX.2 [klein] atteint une qualité équivalente ou supérieure à Qwen, avec une latence plus faible et une consommation de VRAM réduite
Il surpasse Z-Image et prend en charge le texte-vers-image ainsi que l’édition à références multiples dans un modèle unique
Les versions Base sont un peu moins rapides, mais offrent une meilleure aptitude à la personnalisation et à la recherche
Les mesures de vitesse ont été réalisées en environnement GB200 (bf16)

Vision de l’intelligence visuelle interactive

FLUX.2 [klein] représente plus qu’un simple gain de vitesse : c’est une avancée vers une intelligence visuelle interactive en temps réel
Il vise des systèmes capables de voir, créer et itérer
Cela ouvre la voie à de nouveaux domaines d’application comme les outils de design en temps réel, le raisonnement visuel et la création de contenu interactive

Ressources et accès

Essai : Demo, Playground
Hugging Face Space : klein 9B, klein 4B
Ressources de développement : documentation, GitHub, poids du modèle
Informations supplémentaires : page officielle du modèle

2 commentaires

yangeok 2026-01-19

Ah, sur Mac, ça ne va pas marcher alors. Il dit No GPU or XPU found, haha,,

GN⁺ 2026-01-19

Commentaires sur Hacker News

Je n’ai pas encore ajouté Klein à mon site GenAI Showdown
Mais si c’est comparable à Z-Image Turbo, les performances devraient être excellentes
À titre de comparaison, Z-Image Turbo a obtenu 4 points sur 15, ce qui est assez impressionnant quand on considère que Flux.2 (32b), un modèle bien plus gros, n’a obtenu qu’un seul point de plus
Les résultats de comparaison des modèles locaux sont disponibles ici
- Sur mobile, il y a un problème où la bulle d’information disparaît immédiatement quand on la touche. J’ai demandé une correction
- Je pense qu’il y a un problème dans la méthodologie de test. Les grands modèles ont des capacités d’apprentissage beaucoup plus fines ainsi qu’une meilleure compréhension du rendu CGI
  Des tests fondés sur des données structurées peuvent donner une fausse confiance. Désormais, le simple text-to-image n’est plus un bon benchmark
C’est impressionnant de voir les modèles devenir de plus en plus petits tout en gagnant en qualité et en efficacité
Z-Image Turbo est vraiment remarquable, et j’ai hâte d’essayer ce modèle aussi
Un ancien fil lié au sujet est disponible ici
- On dirait qu’il existe aussi un moment où les petits modèles atteignent une masse critique
  Un modèle de 100 Go est difficile à télécharger et à exécuter, alors qu’un modèle de 4 Go peut être essayé immédiatement par la plupart des développeurs
- La qualité progresse, mais les petits modèles manquent encore de volume de connaissances par rapport aux grands modèles comme Qwen Image ou Flux 2 Full
  La différence est particulièrement visible pour les personnes, les artistes et certains objets spécifiques
- Je me demande s’il existe un nombre minimal de paramètres nécessaire pour atteindre une qualité de sortie donnée
  Après GPT 3.5, Deepseek s’est entraîné à un coût bien inférieur, et aujourd’hui des modèles qui dépassent 3.5 tournent même sur un laptop. On peut se demander jusqu’où cela peut encore descendre
Ce modèle n’arrive pas à créer une image de pogo stick
J’ai essayé de générer « un tigre sautant sur un pogo stick », mais il n’a même pas réussi à produire le pogo stick lui-même
- Même en lui donnant l’image d’un verre de vin vide et en lui demandant de le remplir de vin, il échoue
  Ce type de manipulation physique reste hors de portée des modèles pour l’instant, donc les métiers concernés semblent encore tranquilles pour un moment
- C’est un test difficile pour les modèles locaux. gpt-image et NB n’avaient aucun problème, mais seul Qwen-Image a obtenu un résultat proche
  Des échantillons de plusieurs modèles sont visibles ici
  Pour représenter un objet précis comme un « pogo stick », les petits modèles ont besoin d’un prompt supplémentaire
- Même avec une image de référence, ça échoue encore.
  Si le modèle avait une capacité de raisonnement suffisante, il pourrait combler ses lacunes à partir d’images de référence externes, mais ce n’est pas encore le cas
- C’est un bon prompt de benchmark. Z-Image Turbo dessine aussi mal les pogo sticks
  Exemple de tigre, ceci n’est pas un pogo stick, exemple avec Nano Banana Pro
FLUX.2 [klein] 4B est présenté comme la version la plus rapide de la famille Klein, conçue pour les aperçus en temps réel ou les environnements de production sensibles à la latence
Je me demande dans quels cas cela correspond vraiment
- Quand on utilise un modèle local, on n’a pas envie d’attendre 10 minutes pour générer une seule image
  La vitesse est particulièrement importante pour les tâches d’édition d’image
- Ce sera probablement bien adapté à l’édition rapide d’images
Au début, j’ai cru qu’il s’agissait de l’application F.lux qui rend l’écran orange la nuit
Aujourd’hui, cette fonction est intégrée par défaut à pratiquement tous les OS, donc elle n’est plus vraiment nécessaire
Si on considère les modèles de GenAI comme des implémentations compressées, le texte se compresse bien, mais pas autant les images et les vidéos
Pourtant, les modèles récents de text-to-image et text-to-video sont bien plus petits que des LLM comme Llama-3
Cela vient peut-être du fait que nous n’avons appris qu’une zone étroite centrée sur l’humain du monde visuel. Il reste encore beaucoup d’espace de combinaisons visuelles inexploré
- Le texte permet une compression sans perte, alors que les images et vidéos contiennent beaucoup de bruit, donc la comparaison directe n’est pas vraiment équitable
  Si l’on parle d’une compression avec perte imperceptible pour l’humain, les images pourraient au contraire être plus efficaces
- En pratique, les images et les vidéos se compressent bien mieux que le texte
  Le texte tourne autour de 4:1 à 6:1, alors que les images restent visuellement sans perte au-delà de 10:1, et la vidéo est encore plus efficace grâce à la cohérence temporelle
- Je pense qu’il reste encore beaucoup de marge pour améliorer l’efficacité des LLM
  En même temps, il ne faut pas sous-estimer la quantité de méta-connaissances qu’ils embarquent implicitement
Je me demande si quelqu’un ici a essayé Flux 2 Klein
Pour ma part, je ne cours plus après chaque nouveau modèle, et je construis désormais toute mon app autour de Nano Banana Pro
Le résultat me satisfait largement
picxstudio.com
Je me suis beaucoup amusé avec Flux 1, et en ce moment je joue avec Z-Image Turbo
J’essaierai Flux2 Klein quand il sera ajouté à Invoke
- D’accord. L’expérience d’utilisation de ZIT dans Invoke était excellente
Je me demande comment se comportent les capacités interactives par rapport à la version GPT
J’aime le fait qu’il s’agisse d’une petite version publiée en open source
Cela ouvre beaucoup d’opportunités, car on peut l’exécuter sans budget gigantesque
Le gain de vitesse est aussi assez impressionnant

FLUX.2 [klein] : vers une intelligence visuelle interactive

Aperçu de FLUX.2 [klein]

Caractéristiques principales

Composition de la gamme

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Versions quantifiées

Analyse des performances

Vision de l’intelligence visuelle interactive

Ressources et accès

À lire aussi

2 commentaires

Commentaires sur Hacker News