5 points par GN⁺ 2026-01-19 | 2 commentaires | Partager sur WhatsApp
  • FLUX.2 [klein] est une famille de modèles de génération visuelle ultra-rapides qui unifie la génération et l’édition d’images, avec une vitesse d’inférence inférieure à 1 seconde et une compatibilité avec les GPU grand public
  • Il prend en charge le texte-vers-image, l’édition d’images et la génération à références multiples dans une architecture unique, tout en conservant une qualité au niveau des grands modèles
  • Le modèle 9B est publié sous licence FLUX NCL, tandis que le modèle 4B est proposé sous licence Apache 2.0, facilitant l’accès pour les développeurs et la personnalisation
  • Les versions quantifiées FP8 et NVFP4 ont été conçues en collaboration avec NVIDIA, réduisant l’utilisation de la VRAM jusqu’à 55 % et augmentant la vitesse jusqu’à 2,7x
  • Il s’agit d’une étape vers la vision d’une « intelligence visuelle interactive », visant la génération en temps réel et l’interaction, avec des usages possibles dans les outils de design et de création de contenu en temps réel

Aperçu de FLUX.2 [klein]

  • FLUX.2 [klein] est la famille de modèles de génération d’images la plus rapide dévoilée par Black Forest Labs, unifiant génération et édition dans une seule structure
    • La vitesse d’inférence de bout en bout est inférieure à 1 seconde, permettant de générer des images de haute qualité en temps réel
    • Il peut fonctionner avec seulement 13 Go de VRAM, ce qui le rend utilisable sur des GPU de type RTX 3090/4070
  • Le nom du modèle, « klein », signifie « petit » en allemand et fait référence à une architecture compacte et à une faible latence
    • Cependant, ses performances rivalisent avec celles de grands modèles, avec prise en charge de la génération texte-vers-image, de l’édition et de la génération à références multiples

Caractéristiques principales

  • Génération ou édition d’images en moins de 0,5 seconde d’inférence
  • Réalisme de niveau photographique et grande diversité
  • Architecture de modèle unifiée permettant d’exécuter texte-vers-image, image-vers-image et tâches à références multiples dans un seul modèle
  • Compatibilité avec les GPU grand public : le modèle 4B fonctionne avec environ 13 Go de VRAM
  • Approche favorable aux développeurs renforcée : le modèle 4B est publié sous Apache 2.0, le 9B sous FLUX NCL
  • Disponibilité via API et open weights, permettant à la fois l’exécution en local et le déploiement en production

Composition de la gamme

FLUX.2 [klein] 9B

  • Modèle principal, définissant l’équilibre entre qualité et latence
    • En texte-vers-image, édition à référence unique et génération à références multiples, il offre des performances équivalentes ou supérieures à celles de modèles 5 fois plus grands
    • Moins de 0,5 seconde d’inférence
    • Basé sur un modèle de flux 9B et un text embedder Qwen3 8B
    • Architecture d’inférence en 4 étapes (step-distilled) pour maximiser l’efficacité
  • Licence : FLUX NCL

FLUX.2 [klein] 4B

  • Modèle entièrement ouvert sous licence Apache 2.0
    • Exécutable sur des GPU grand public comme les RTX 3090/4070
    • Prend en charge texte-vers-image (T2I), image-vers-image (I2I) et génération à références multiples
    • Malgré sa taille réduite, il offre une qualité élevée au regard de sa taille
    • Adapté au développement local et au déploiement en edge

FLUX.2 [klein] Base 9B / 4B

  • Versions non distillées (full-capacity), conservant intégralement les signaux d’entraînement
    • Adaptées au fine-tuning, à l’entraînement LoRA et aux pipelines de recherche
    • Offrent une plus grande diversité de sortie que les modèles distillés
  • Licence : Base 4B sous Apache 2.0, Base 9B sous FLUX NCL

Versions quantifiées

  • Publication des versions FP8 et NVFP4 en collaboration avec NVIDIA
    • FP8 : jusqu’à 1,6x plus rapide et 40 % de VRAM en moins
    • NVFP4 : jusqu’à 2,7x plus rapide et 55 % de VRAM en moins
    • Benchmarks T2I en 1024×1024 réalisés sur RTX 5080/5090
  • Le même schéma de licence est conservé : 4B sous Apache 2.0, 9B sous FLUX NCL

Analyse des performances

  • FLUX.2 [klein] atteint une qualité équivalente ou supérieure à Qwen, avec une latence plus faible et une consommation de VRAM réduite
  • Il surpasse Z-Image et prend en charge le texte-vers-image ainsi que l’édition à références multiples dans un modèle unique
  • Les versions Base sont un peu moins rapides, mais offrent une meilleure aptitude à la personnalisation et à la recherche
  • Les mesures de vitesse ont été réalisées en environnement GB200 (bf16)

Vision de l’intelligence visuelle interactive

  • FLUX.2 [klein] représente plus qu’un simple gain de vitesse : c’est une avancée vers une intelligence visuelle interactive en temps réel
  • Il vise des systèmes capables de voir, créer et itérer
  • Cela ouvre la voie à de nouveaux domaines d’application comme les outils de design en temps réel, le raisonnement visuel et la création de contenu interactive

Ressources et accès


2 commentaires

 
yangeok 2026-01-19

Ah, sur Mac, ça ne va pas marcher alors. Il dit No GPU or XPU found, haha,,

 
GN⁺ 2026-01-19
Commentaires sur Hacker News
  • Je n’ai pas encore ajouté Klein à mon site GenAI Showdown
    Mais si c’est comparable à Z-Image Turbo, les performances devraient être excellentes
    À titre de comparaison, Z-Image Turbo a obtenu 4 points sur 15, ce qui est assez impressionnant quand on considère que Flux.2 (32b), un modèle bien plus gros, n’a obtenu qu’un seul point de plus
    Les résultats de comparaison des modèles locaux sont disponibles ici

    • Sur mobile, il y a un problème où la bulle d’information disparaît immédiatement quand on la touche. J’ai demandé une correction
    • Je pense qu’il y a un problème dans la méthodologie de test. Les grands modèles ont des capacités d’apprentissage beaucoup plus fines ainsi qu’une meilleure compréhension du rendu CGI
      Des tests fondés sur des données structurées peuvent donner une fausse confiance. Désormais, le simple text-to-image n’est plus un bon benchmark
  • C’est impressionnant de voir les modèles devenir de plus en plus petits tout en gagnant en qualité et en efficacité
    Z-Image Turbo est vraiment remarquable, et j’ai hâte d’essayer ce modèle aussi
    Un ancien fil lié au sujet est disponible ici

    • On dirait qu’il existe aussi un moment où les petits modèles atteignent une masse critique
      Un modèle de 100 Go est difficile à télécharger et à exécuter, alors qu’un modèle de 4 Go peut être essayé immédiatement par la plupart des développeurs
    • La qualité progresse, mais les petits modèles manquent encore de volume de connaissances par rapport aux grands modèles comme Qwen Image ou Flux 2 Full
      La différence est particulièrement visible pour les personnes, les artistes et certains objets spécifiques
    • Je me demande s’il existe un nombre minimal de paramètres nécessaire pour atteindre une qualité de sortie donnée
      Après GPT 3.5, Deepseek s’est entraîné à un coût bien inférieur, et aujourd’hui des modèles qui dépassent 3.5 tournent même sur un laptop. On peut se demander jusqu’où cela peut encore descendre
  • Ce modèle n’arrive pas à créer une image de pogo stick
    J’ai essayé de générer « un tigre sautant sur un pogo stick », mais il n’a même pas réussi à produire le pogo stick lui-même

    • Même en lui donnant l’image d’un verre de vin vide et en lui demandant de le remplir de vin, il échoue
      Ce type de manipulation physique reste hors de portée des modèles pour l’instant, donc les métiers concernés semblent encore tranquilles pour un moment
    • C’est un test difficile pour les modèles locaux. gpt-image et NB n’avaient aucun problème, mais seul Qwen-Image a obtenu un résultat proche
      Des échantillons de plusieurs modèles sont visibles ici
      Pour représenter un objet précis comme un « pogo stick », les petits modèles ont besoin d’un prompt supplémentaire
    • Même avec une image de référence, ça échoue encore.
      Si le modèle avait une capacité de raisonnement suffisante, il pourrait combler ses lacunes à partir d’images de référence externes, mais ce n’est pas encore le cas
    • C’est un bon prompt de benchmark. Z-Image Turbo dessine aussi mal les pogo sticks
      Exemple de tigre, ceci n’est pas un pogo stick, exemple avec Nano Banana Pro
  • FLUX.2 [klein] 4B est présenté comme la version la plus rapide de la famille Klein, conçue pour les aperçus en temps réel ou les environnements de production sensibles à la latence
    Je me demande dans quels cas cela correspond vraiment

    • Quand on utilise un modèle local, on n’a pas envie d’attendre 10 minutes pour générer une seule image
      La vitesse est particulièrement importante pour les tâches d’édition d’image
    • Ce sera probablement bien adapté à l’édition rapide d’images
  • Au début, j’ai cru qu’il s’agissait de l’application F.lux qui rend l’écran orange la nuit
    Aujourd’hui, cette fonction est intégrée par défaut à pratiquement tous les OS, donc elle n’est plus vraiment nécessaire

  • Si on considère les modèles de GenAI comme des implémentations compressées, le texte se compresse bien, mais pas autant les images et les vidéos
    Pourtant, les modèles récents de text-to-image et text-to-video sont bien plus petits que des LLM comme Llama-3
    Cela vient peut-être du fait que nous n’avons appris qu’une zone étroite centrée sur l’humain du monde visuel. Il reste encore beaucoup d’espace de combinaisons visuelles inexploré

    • Le texte permet une compression sans perte, alors que les images et vidéos contiennent beaucoup de bruit, donc la comparaison directe n’est pas vraiment équitable
      Si l’on parle d’une compression avec perte imperceptible pour l’humain, les images pourraient au contraire être plus efficaces
    • En pratique, les images et les vidéos se compressent bien mieux que le texte
      Le texte tourne autour de 4:1 à 6:1, alors que les images restent visuellement sans perte au-delà de 10:1, et la vidéo est encore plus efficace grâce à la cohérence temporelle
    • Je pense qu’il reste encore beaucoup de marge pour améliorer l’efficacité des LLM
      En même temps, il ne faut pas sous-estimer la quantité de méta-connaissances qu’ils embarquent implicitement
  • Je me demande si quelqu’un ici a essayé Flux 2 Klein
    Pour ma part, je ne cours plus après chaque nouveau modèle, et je construis désormais toute mon app autour de Nano Banana Pro
    Le résultat me satisfait largement
    picxstudio.com

  • Je me suis beaucoup amusé avec Flux 1, et en ce moment je joue avec Z-Image Turbo
    J’essaierai Flux2 Klein quand il sera ajouté à Invoke

    • D’accord. L’expérience d’utilisation de ZIT dans Invoke était excellente
  • Je me demande comment se comportent les capacités interactives par rapport à la version GPT

  • J’aime le fait qu’il s’agisse d’une petite version publiée en open source
    Cela ouvre beaucoup d’opportunités, car on peut l’exécuter sans budget gigantesque
    Le gain de vitesse est aussi assez impressionnant