- FLUX.2 est un modèle de génération d’images haute qualité conçu pour de véritables workflows créatifs, capable de maintenir la cohérence des personnages et du style entre plusieurs images de référence, tout en prenant en charge le traitement du texte et le respect des chartes de marque
- Il permet une édition d’image détaillée jusqu’à une résolution de 4 mégapixels, avec un contrôle fiable des éléments visuels comme l’éclairage, la mise en page et les logos
- Grâce à une stratégie open core, il propose à la fois des modèles à poids ouverts et des API de niveau production, faisant passer l’écosystème ouvert construit avec FLUX.1 à l’étape FLUX.2
- Parmi les nouveautés figurent la prise en charge multi-références, le rendu typographique avancé, le traitement amélioré des prompts et l’intégration de connaissances ancrées dans le réel
- La gamme se compose de pro, flex, dev, klein et VAE, avec une offre couvrant à la fois les poids ouverts et les API commerciales
- Black Forest Labs vise le développement ouvert de l’intelligence visuelle en combinant recherche ouverte et infrastructure commerciale
Aperçu de FLUX.2
- FLUX.2 est un modèle de génération d’images destiné à de véritables environnements de production, et non à de simples démonstrations
- Il maintient la cohérence des personnages et du style à partir de plusieurs images de référence
- Il suit des prompts structurés et peut lire et écrire des textes complexes
- Il gère de façon stable les chartes de marque, l’éclairage, la mise en page et les logos
- Prise en charge de l’édition d’images avec un haut niveau de détail et de cohérence jusqu’à une résolution de 4 MP
La philosophie open core de Black Forest Labs
- L’entreprise défend le principe selon lequel l’intelligence visuelle doit progresser avec la contribution conjointe des chercheurs, des créateurs et des développeurs
- Elle propose en parallèle des modèles à poids ouverts et des endpoints API de niveau commercial
- Les modèles ouverts favorisent l’expérimentation et la réduction des coûts, tout en améliorant la transparence
- Depuis sa création en 2024, elle a posé les bases de l’innovation ouverte avec FLUX.1 [dev] et FLUX.1 Kontext [pro]
- FLUX.1 [dev] est présenté comme le modèle d’image ouvert le plus populaire au monde
- FLUX.1 Kontext [pro] est utilisé par de grandes équipes chez Adobe, Meta et d’autres
De FLUX.1 à FLUX.2
- Si FLUX.1 a démontré son potentiel comme outil créatif, FLUX.2 met l’accent sur la transformation des workflows de production
- Il renforce la précision, l’efficacité, le contrôle et le réalisme, améliorant fortement l’économie de la génération d’images
- Il est ainsi appelé à devenir un composant central de l’infrastructure créative
Principales nouveautés (What’s New)
- Prise en charge multi-références : jusqu’à 10 images peuvent être utilisées simultanément pour conserver la cohérence des personnages, des produits et du style
- Détails fins et réalisme : adapté à la photographie de produit, à la visualisation et à des résultats de niveau photographique
- Amélioration du rendu du texte : meilleure lisibilité pour la typographie complexe, les infographies et les maquettes d’interface
- Traitement des prompts renforcé : prise en compte précise des prompts multi-structures et des contraintes de composition
- Extension des connaissances ancrées dans le réel : construction cohérente des scènes sur la base de la logique de l’éclairage et de l’espace
- Édition haute résolution : prise en charge flexible des ratios d’entrée et de sortie jusqu’à 4 MP
La gamme FLUX.2
- FLUX.2 [pro]
- Offre une qualité d’image, une fidélité au prompt et une précision visuelle capables de rivaliser avec les meilleurs modèles fermés
- Se distingue par une génération rapide et un coût réduit, et est disponible via BFL Playground, l’API et les plateformes partenaires
- FLUX.2 [flex]
- Modèle permettant d’ajuster directement des paramètres comme le nombre d’étapes et l’échelle de guidance afin d’optimiser la qualité, la vitesse et le rendu du texte
- Particulièrement performant pour l’expression typographique de précision
- FLUX.2 [dev]
- Modèle open weight 32B, présenté comme le modèle public le plus puissant à ce jour pour prendre en charge, dans un seul checkpoint, le texte→image et l’édition d’images multi-entrées
- Poids disponibles sur Hugging Face, avec une implémentation optimisée FP8 réalisée en collaboration avec NVIDIA et ComfyUI
- Utilisable via API sur FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra et d’autres
- FLUX.2 [klein] (à venir)
- Modèle open source sous licence Apache 2.0, qui sera proposé sous une forme légère et performante via une distillation de taille à partir de FLUX.2
- FLUX.2 – VAE
- Nouveau VAE optimisé pour équilibrer la facilité d’entraînement, la qualité et le taux de compression, élément central du backbone FLUX.2
- Disponible sur Hugging Face sous licence Apache 2.0
Performances et valeur
- La famille FLUX.2 offre une qualité de génération d’images de pointe à un prix compétitif
- Parmi les modèles à poids ouverts, FLUX.2 [dev] affiche des performances supérieures à toutes les alternatives ouvertes pour la génération texte-image et l’édition à référence unique ou multiple
- Tous les modèles sont encadrés avant et après leur lancement selon des principes de développement responsable
Architecture technique (How It Works)
- Repose sur une architecture de latent flow matching, qui unifie génération et édition d’images dans une seule structure
- Combine un modèle vision-langage Mistral-3 24B et un Rectified Flow Transformer
- Le VLM apporte des connaissances sur le monde réel et une compréhension du contexte
- Le transformer traite les relations spatiales, les propriétés des matériaux et la logique de composition
- Peut combiner jusqu’à 10 images de référence pour produire un nouveau résultat
- Réentraîne l’espace latent du modèle afin d’améliorer le trilemme apprentissage–qualité–taux de compression
Ressources complémentaires
Orientation future (Into the New)
- FLUX.2 constitue une étape vers des modèles multimodaux intégrant perception, génération, mémoire et raisonnement
- Il vise à devenir une technologie fondamentale de l’infrastructure d’intelligence visuelle, capable de transformer la manière dont le monde est perçu et compris
- L’entreprise recrute actuellement à Freiburg et San Francisco
1 commentaires
Avis Hacker News
Ces derniers temps, il sort tellement de nouveaux modèles que mettre à jour le site de comparaison GenAI donne presque une impression de supplice de Sisyphe
J’y ai quand même ajouté les résultats du nouveau modèle Flux 2 Pro Editing
Vous pouvez les consulter sur la page des résultats
Ce modèle a obtenu un score légèrement supérieur à Kontext de BFL, avec une note de 6, soit à peu près le milieu du classement parmi 12 modèles
J’ajouterai bientôt des métriques numériques pour une évaluation plus fine
Si vous voulez comparer uniquement Flux 2 Pro, Nano Banana Pro et Kontext, vous pouvez utiliser ce lien
À noter que BFL semble prendre en charge une structure JSON pour des éditions plus précises, donc je me demande si cela pourrait améliorer encore l’exactitude
Le fait que Flux et Gemini Pro 3 reçoivent la même note dégrade la qualité du benchmark
Le modèle d’OpenAI a une signature trop marquée, donc il est faible en correspondance de style, et les performances de Flux varient selon le style
Flux a essayé d’éviter un entraînement qui ferait la moyenne de plusieurs styles, mais cela entre en conflit avec l’objectif de produire des images visuellement attractives
Au final, le problème de cohérence de style va probablement persister encore un moment
Seedream est aussi impressionnant, donc dans la prochaine version il pourrait être au niveau de Google
La génération d’images donne presque l’impression d’être un problème résolu
Leur nouveau modèle reste de niveau intermédiaire, et leur open source n’est pas aussi ouvert que les modèles chinois
La qualité d’image de Flux donne toujours une impression de peau plastique et de texture artificielle
Même si ça passe techniquement, je ne pense pas que je choisirais Flux dans un vrai workflow
C’est peut-être un problème d’équipe data avec peu de sens esthétique
Coincé entre Google et l’écosystème chinois, BFL est dans une position difficile
D’autres entreprises de modèles média comme RunwayML, PikaLabs et LumaLabs connaissent des difficultés similaires
Même si BFL a récemment levé un gros investissement, la concurrence avec les hyperscalers semble toujours trop lourde
Je suis content que le nouveau modèle soit aussi sorti en version open weights
En revanche, je me demande ce qu’il est advenu du modèle vidéo SOTA qu’ils avaient annoncé auparavant
Il était aussi mentionné dans cette vidéo YouTube, mais la page associée (bfl.ai/up-next) a été supprimée
Les modèles d’image ont plus de cas d’usage, et les jeux de données sont bien plus riches
L’image est la base de la vidéo, avec beaucoup plus d’éléments contrôlables
Les modèles d’image offrent un feedback rapide et de la productivité, et il reste encore du chemin sur le contrôle du style, de la pose et de la cohérence
Midjourney domine sur le plan esthétique mais manque de contrôle
Flux a un rendu plastique, Imagen fait plus cartoon, et OpenAI semble daté
Au final, il faut être compétitif à la fois sur l’esthétique, le contrôle et la reproductibilité
La vidéo est une distraction dans ce travail
J’ai testé moi-même Flux 2 Pro (lien Replicate)
Par rapport à Nano Banana, il n’y a pas de grande différence, et face à Flux 1.1 Pro il s’agit surtout d’une amélioration incrémentale
Si Google augmente ses prix ou change son API, il n’y a pas d’alternative, alors que BFL propose une option d’exécution locale
Elle ajoute des détails inutiles, un peu comme un upscale ESRGAN (lien de test)
FLUX.1 Pro Kontext reste excellent en expression artistique et en compréhension des consignes
On peut aussi le constater dans ce billet de comparaison avec Nano Banana
FLUX.2 [dev] peut être exécuté en local sur GPU RTX avec une version optimisée fp8
C’est bien qu’ils conservent les open weights, mais le modèle est passé de 12B à 32B, ce qui rend l’usage local plus contraignant
J’attends une version distill
l’encodeur de texte demande 48 Go, le modèle de génération 64 Go, soit plus de 100 Go au total
c’est une barrière d’entrée importante pour les utilisateurs en local
Cette fois, l’encodeur de texte est Mistral-Small-3.2-24B-Instruct-2506, meilleur que l’ancien duo CLIP/T5 mais volumineux
S’ils avaient attendu de sortir un modèle distill sous Apache 2.0, ils se seraient peut-être mieux différenciés face à Nano Banana
La structure tarifaire est aussi particulière — l’entrée coûte 0,015 $/MP, la sortie 0,03 $ pour le premier MP puis 0,015 $/MP ensuite
C’est bien de voir apparaître un concurrent à Nano Banana Pro
Cela aide à maintenir la concurrence sur les prix
Google, OpenAI et Claude n’y sont pas accessibles par abonnement
À noter que la version open source FLUX.2-DEV n’autorise pas l’usage commercial
Texte complet de la licence
J’ai comparé Nano Banana Pro et Flux 2 Pro avec le prompt “family guy cyberpunk 2077”,
et le modèle de Google collait mieux à une scène de jeu, tandis que Flux donnait un rendu trop réaliste
Flux 2 Pro a montré la même tendance
Mais avec l’écosystème LoRA et du temps de tuning, Flux 1 Dev reste fort pour le stylisme créatif
Une version 18GB 4bit quant est disponible dans diffusers, ce qui permet une exécution dans des environnements à faible VRAM