FLUX.2 : le modèle de nouvelle génération pour la génération et l’édition visuelles

(bfl.ai)

2 points par GN⁺ 2025-11-27 | 1 commentaires | Partager sur WhatsApp

FLUX.2 est un modèle de génération d’images haute qualité conçu pour de véritables workflows créatifs, capable de maintenir la cohérence des personnages et du style entre plusieurs images de référence, tout en prenant en charge le traitement du texte et le respect des chartes de marque
Il permet une édition d’image détaillée jusqu’à une résolution de 4 mégapixels, avec un contrôle fiable des éléments visuels comme l’éclairage, la mise en page et les logos
Grâce à une stratégie open core, il propose à la fois des modèles à poids ouverts et des API de niveau production, faisant passer l’écosystème ouvert construit avec FLUX.1 à l’étape FLUX.2
Parmi les nouveautés figurent la prise en charge multi-références, le rendu typographique avancé, le traitement amélioré des prompts et l’intégration de connaissances ancrées dans le réel
La gamme se compose de pro, flex, dev, klein et VAE, avec une offre couvrant à la fois les poids ouverts et les API commerciales
Black Forest Labs vise le développement ouvert de l’intelligence visuelle en combinant recherche ouverte et infrastructure commerciale

Aperçu de FLUX.2

FLUX.2 est un modèle de génération d’images destiné à de véritables environnements de production, et non à de simples démonstrations
- Il maintient la cohérence des personnages et du style à partir de plusieurs images de référence
- Il suit des prompts structurés et peut lire et écrire des textes complexes
- Il gère de façon stable les chartes de marque, l’éclairage, la mise en page et les logos
Prise en charge de l’édition d’images avec un haut niveau de détail et de cohérence jusqu’à une résolution de 4 MP

La philosophie open core de Black Forest Labs

L’entreprise défend le principe selon lequel l’intelligence visuelle doit progresser avec la contribution conjointe des chercheurs, des créateurs et des développeurs
Elle propose en parallèle des modèles à poids ouverts et des endpoints API de niveau commercial
- Les modèles ouverts favorisent l’expérimentation et la réduction des coûts, tout en améliorant la transparence
Depuis sa création en 2024, elle a posé les bases de l’innovation ouverte avec FLUX.1 [dev] et FLUX.1 Kontext [pro]
- FLUX.1 [dev] est présenté comme le modèle d’image ouvert le plus populaire au monde
- FLUX.1 Kontext [pro] est utilisé par de grandes équipes chez Adobe, Meta et d’autres

De FLUX.1 à FLUX.2

Si FLUX.1 a démontré son potentiel comme outil créatif, FLUX.2 met l’accent sur la transformation des workflows de production
Il renforce la précision, l’efficacité, le contrôle et le réalisme, améliorant fortement l’économie de la génération d’images
Il est ainsi appelé à devenir un composant central de l’infrastructure créative

Principales nouveautés (What’s New)

Prise en charge multi-références : jusqu’à 10 images peuvent être utilisées simultanément pour conserver la cohérence des personnages, des produits et du style
Détails fins et réalisme : adapté à la photographie de produit, à la visualisation et à des résultats de niveau photographique
Amélioration du rendu du texte : meilleure lisibilité pour la typographie complexe, les infographies et les maquettes d’interface
Traitement des prompts renforcé : prise en compte précise des prompts multi-structures et des contraintes de composition
Extension des connaissances ancrées dans le réel : construction cohérente des scènes sur la base de la logique de l’éclairage et de l’espace
Édition haute résolution : prise en charge flexible des ratios d’entrée et de sortie jusqu’à 4 MP

La gamme FLUX.2

FLUX.2 [pro]
- Offre une qualité d’image, une fidélité au prompt et une précision visuelle capables de rivaliser avec les meilleurs modèles fermés
- Se distingue par une génération rapide et un coût réduit, et est disponible via BFL Playground, l’API et les plateformes partenaires
FLUX.2 [flex]
- Modèle permettant d’ajuster directement des paramètres comme le nombre d’étapes et l’échelle de guidance afin d’optimiser la qualité, la vitesse et le rendu du texte
- Particulièrement performant pour l’expression typographique de précision
FLUX.2 [dev]
- Modèle open weight 32B, présenté comme le modèle public le plus puissant à ce jour pour prendre en charge, dans un seul checkpoint, le texte→image et l’édition d’images multi-entrées
- Poids disponibles sur Hugging Face, avec une implémentation optimisée FP8 réalisée en collaboration avec NVIDIA et ComfyUI
- Utilisable via API sur FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra et d’autres
FLUX.2 [klein] (à venir)
- Modèle open source sous licence Apache 2.0, qui sera proposé sous une forme légère et performante via une distillation de taille à partir de FLUX.2
FLUX.2 – VAE
- Nouveau VAE optimisé pour équilibrer la facilité d’entraînement, la qualité et le taux de compression, élément central du backbone FLUX.2
- Disponible sur Hugging Face sous licence Apache 2.0

Performances et valeur

La famille FLUX.2 offre une qualité de génération d’images de pointe à un prix compétitif
Parmi les modèles à poids ouverts, FLUX.2 [dev] affiche des performances supérieures à toutes les alternatives ouvertes pour la génération texte-image et l’édition à référence unique ou multiple
Tous les modèles sont encadrés avant et après leur lancement selon des principes de développement responsable

Architecture technique (How It Works)

Repose sur une architecture de latent flow matching, qui unifie génération et édition d’images dans une seule structure
Combine un modèle vision-langage Mistral-3 24B et un Rectified Flow Transformer
- Le VLM apporte des connaissances sur le monde réel et une compréhension du contexte
- Le transformer traite les relations spatiales, les propriétés des matériaux et la logique de composition
Peut combiner jusqu’à 10 images de référence pour produire un nouveau résultat
Réentraîne l’espace latent du modèle afin d’améliorer le trilemme apprentissage–qualité–taux de compression

Ressources complémentaires

Orientation future (Into the New)

FLUX.2 constitue une étape vers des modèles multimodaux intégrant perception, génération, mémoire et raisonnement
Il vise à devenir une technologie fondamentale de l’infrastructure d’intelligence visuelle, capable de transformer la manière dont le monde est perçu et compris
L’entreprise recrute actuellement à Freiburg et San Francisco

1 commentaires

GN⁺ 2025-11-27

Avis Hacker News

Ces derniers temps, il sort tellement de nouveaux modèles que mettre à jour le site de comparaison GenAI donne presque une impression de supplice de Sisyphe
J’y ai quand même ajouté les résultats du nouveau modèle Flux 2 Pro Editing
Vous pouvez les consulter sur la page des résultats
Ce modèle a obtenu un score légèrement supérieur à Kontext de BFL, avec une note de 6, soit à peu près le milieu du classement parmi 12 modèles
J’ajouterai bientôt des métriques numériques pour une évaluation plus fine
Si vous voulez comparer uniquement Flux 2 Pro, Nano Banana Pro et Kontext, vous pouvez utiliser ce lien
À noter que BFL semble prendre en charge une structure JSON pour des éditions plus précises, donc je me demande si cela pourrait améliorer encore l’exactitude
- Ce serait mieux que le système de notation passe d’un simple succès/échec à une échelle de 0 à 10
  Le fait que Flux et Gemini Pro 3 reçoivent la même note dégrade la qualité du benchmark
- La comparaison est utile, mais la diversité des styles manque
  Le modèle d’OpenAI a une signature trop marquée, donc il est faible en correspondance de style, et les performances de Flux varient selon le style
  Flux a essayé d’éviter un entraînement qui ferait la moyenne de plusieurs styles, mais cela entre en conflit avec l’objectif de produire des images visuellement attractives
  Au final, le problème de cohérence de style va probablement persister encore un moment
- Pour l’instant, Google est clairement devant
  Seedream est aussi impressionnant, donc dans la prochaine version il pourrait être au niveau de Google
  La génération d’images donne presque l’impression d’être un problème résolu
- Il y a une coquille sur le site : s/sttae/state/g à corriger
- Je me demande si BFL aura encore l’énergie de continuer à rivaliser avec des géants comme Google et ByteDance (SeeDream)
  Leur nouveau modèle reste de niveau intermédiaire, et leur open source n’est pas aussi ouvert que les modèles chinois
  La qualité d’image de Flux donne toujours une impression de peau plastique et de texture artificielle
  Même si ça passe techniquement, je ne pense pas que je choisirais Flux dans un vrai workflow
  C’est peut-être un problème d’équipe data avec peu de sens esthétique
  Coincé entre Google et l’écosystème chinois, BFL est dans une position difficile
  D’autres entreprises de modèles média comme RunwayML, PikaLabs et LumaLabs connaissent des difficultés similaires
  Même si BFL a récemment levé un gros investissement, la concurrence avec les hyperscalers semble toujours trop lourde
Je suis content que le nouveau modèle soit aussi sorti en version open weights
En revanche, je me demande ce qu’il est advenu du modèle vidéo SOTA qu’ils avaient annoncé auparavant
Il était aussi mentionné dans cette vidéo YouTube, mais la page associée (bfl.ai/up-next) a été supprimée
- En tant que startup, ils ont pivoté pour se concentrer sur les modèles d’image plutôt que vidéo
  Les modèles d’image ont plus de cas d’usage, et les jeux de données sont bien plus riches
- D’après ce que j’ai entendu, l’entraînement du modèle vidéo s’est terminé par un échec à grande échelle, et le projet a été annulé
- Les modèles d’image restent un axe technologique central
  L’image est la base de la vidéo, avec beaucoup plus d’éléments contrôlables
  Les modèles d’image offrent un feedback rapide et de la productivité, et il reste encore du chemin sur le contrôle du style, de la pose et de la cohérence
  Midjourney domine sur le plan esthétique mais manque de contrôle
  Flux a un rendu plastique, Imagen fait plus cartoon, et OpenAI semble daté
  Au final, il faut être compétitif à la fois sur l’esthétique, le contrôle et la reproductibilité
  La vidéo est une distraction dans ce travail
J’ai testé moi-même Flux 2 Pro (lien Replicate)
Par rapport à Nano Banana, il n’y a pas de grande différence, et face à Flux 1.1 Pro il s’agit surtout d’une amélioration incrémentale
- La cohérence du prompt s’est améliorée, mais la qualité d’image paraît plus artificielle
- Le guide de prompt Flux 2 recommande par défaut les prompts JSON et la spécification des couleurs en HEX
- Si l’on active le prompt upsampling, les capacités d’inférence s’améliorent, mais si on le désactive on obtient des résultats aberrants
- L’API Flux 2 est très sensible aux questions d’IP, au point que certains cas ne passent qu’avec l’upsampling activé (exemple)
- Le coût et la vitesse sont comparables à Nano Banana, mais dès qu’on utilise la fonction d’entrée d’image, Flux 2 Pro devient plus cher
- Entre Flux 1.1 et 2, il n’y a pas de supériorité objective
- Le simple fait que Flux puisse potentiellement tourner en local reste un avantage
  Si Google augmente ses prix ou change son API, il n’y a pas d’alternative, alors que BFL propose une option d’exécution locale
- La sortie haute résolution (4K) de Flux 2 Pro peut parfois poser problème
  Elle ajoute des détails inutiles, un peu comme un upscale ESRGAN (lien de test)
- La version Flux 2 Dev n’a pas de censure IP
FLUX.1 Pro Kontext reste excellent en expression artistique et en compréhension des consignes
On peut aussi le constater dans ce billet de comparaison avec Nano Banana
FLUX.2 [dev] peut être exécuté en local sur GPU RTX avec une version optimisée fp8
C’est bien qu’ils conservent les open weights, mais le modèle est passé de 12B à 32B, ce qui rend l’usage local plus contraignant
J’attends une version distill
- D’après la page Hugging Face,
  l’encodeur de texte demande 48 Go, le modèle de génération 64 Go, soit plus de 100 Go au total
  c’est une barrière d’entrée importante pour les utilisateurs en local
Cette fois, l’encodeur de texte est Mistral-Small-3.2-24B-Instruct-2506, meilleur que l’ancien duo CLIP/T5 mais volumineux
S’ils avaient attendu de sortir un modèle distill sous Apache 2.0, ils se seraient peut-être mieux différenciés face à Nano Banana
La structure tarifaire est aussi particulière — l’entrée coûte 0,015 $/MP, la sortie 0,03 $ pour le premier MP puis 0,015 $/MP ensuite
- Qwen-Image-Edit-2511 doit sortir la semaine prochaine sous Apache 2.0, donc BFL semble avoir publié en urgence
- CLIP était en pratique un choix sans intérêt. Même en mettant les poids à zéro, le résultat restait presque identique
- La combinaison CLIP+T5 était utilisée à l’époque par beaucoup de modèles de génération d’image. Ce n’était pas un choix aberrant
- À vouloir soigner la stratégie GTM, c’est le marché européen qui semble y avoir perdu
C’est bien de voir apparaître un concurrent à Nano Banana Pro
Cela aide à maintenir la concurrence sur les prix
- Dans des régions comme Hong Kong, où l’usage des modèles américains est restreint, ce type d’alternative est particulièrement important
  Google, OpenAI et Claude n’y sont pas accessibles par abonnement
- C’est aussi agréable de voir une entreprise européenne active dans le domaine
À noter que la version open source FLUX.2-DEV n’autorise pas l’usage commercial
Texte complet de la licence
J’ai comparé Nano Banana Pro et Flux 2 Pro avec le prompt “family guy cyberpunk 2077”,
et le modèle de Google collait mieux à une scène de jeu, tandis que Flux donnait un rendu trop réaliste
- Flux est entraîné sur un dataset centré photo, donc il est plus faible sur les styles artistiques
  Flux 2 Pro a montré la même tendance
  Mais avec l’écosystème LoRA et du temps de tuning, Flux 1 Dev reste fort pour le stylisme créatif
Une version 18GB 4bit quant est disponible dans diffusers, ce qui permet une exécution dans des environnements à faible VRAM

FLUX.2 : le modèle de nouvelle génération pour la génération et l’édition visuelles

Aperçu de FLUX.2

La philosophie open core de Black Forest Labs

De FLUX.1 à FLUX.2

Principales nouveautés (What’s New)

La gamme FLUX.2

Performances et valeur

Architecture technique (How It Works)

Ressources complémentaires

Orientation future (Into the New)

À lire aussi

1 commentaires

Avis Hacker News