2 points par GN⁺ 2025-11-27 | 1 commentaires | Partager sur WhatsApp
  • FLUX.2 est un modèle de génération d’images haute qualité conçu pour de véritables workflows créatifs, capable de maintenir la cohérence des personnages et du style entre plusieurs images de référence, tout en prenant en charge le traitement du texte et le respect des chartes de marque
  • Il permet une édition d’image détaillée jusqu’à une résolution de 4 mégapixels, avec un contrôle fiable des éléments visuels comme l’éclairage, la mise en page et les logos
  • Grâce à une stratégie open core, il propose à la fois des modèles à poids ouverts et des API de niveau production, faisant passer l’écosystème ouvert construit avec FLUX.1 à l’étape FLUX.2
  • Parmi les nouveautés figurent la prise en charge multi-références, le rendu typographique avancé, le traitement amélioré des prompts et l’intégration de connaissances ancrées dans le réel
  • La gamme se compose de pro, flex, dev, klein et VAE, avec une offre couvrant à la fois les poids ouverts et les API commerciales
  • Black Forest Labs vise le développement ouvert de l’intelligence visuelle en combinant recherche ouverte et infrastructure commerciale

Aperçu de FLUX.2

  • FLUX.2 est un modèle de génération d’images destiné à de véritables environnements de production, et non à de simples démonstrations
    • Il maintient la cohérence des personnages et du style à partir de plusieurs images de référence
    • Il suit des prompts structurés et peut lire et écrire des textes complexes
    • Il gère de façon stable les chartes de marque, l’éclairage, la mise en page et les logos
  • Prise en charge de l’édition d’images avec un haut niveau de détail et de cohérence jusqu’à une résolution de 4 MP

La philosophie open core de Black Forest Labs

  • L’entreprise défend le principe selon lequel l’intelligence visuelle doit progresser avec la contribution conjointe des chercheurs, des créateurs et des développeurs
  • Elle propose en parallèle des modèles à poids ouverts et des endpoints API de niveau commercial
    • Les modèles ouverts favorisent l’expérimentation et la réduction des coûts, tout en améliorant la transparence
  • Depuis sa création en 2024, elle a posé les bases de l’innovation ouverte avec FLUX.1 [dev] et FLUX.1 Kontext [pro]
    • FLUX.1 [dev] est présenté comme le modèle d’image ouvert le plus populaire au monde
    • FLUX.1 Kontext [pro] est utilisé par de grandes équipes chez Adobe, Meta et d’autres

De FLUX.1 à FLUX.2

  • Si FLUX.1 a démontré son potentiel comme outil créatif, FLUX.2 met l’accent sur la transformation des workflows de production
  • Il renforce la précision, l’efficacité, le contrôle et le réalisme, améliorant fortement l’économie de la génération d’images
  • Il est ainsi appelé à devenir un composant central de l’infrastructure créative

Principales nouveautés (What’s New)

  • Prise en charge multi-références : jusqu’à 10 images peuvent être utilisées simultanément pour conserver la cohérence des personnages, des produits et du style
  • Détails fins et réalisme : adapté à la photographie de produit, à la visualisation et à des résultats de niveau photographique
  • Amélioration du rendu du texte : meilleure lisibilité pour la typographie complexe, les infographies et les maquettes d’interface
  • Traitement des prompts renforcé : prise en compte précise des prompts multi-structures et des contraintes de composition
  • Extension des connaissances ancrées dans le réel : construction cohérente des scènes sur la base de la logique de l’éclairage et de l’espace
  • Édition haute résolution : prise en charge flexible des ratios d’entrée et de sortie jusqu’à 4 MP

La gamme FLUX.2

  • FLUX.2 [pro]
    • Offre une qualité d’image, une fidélité au prompt et une précision visuelle capables de rivaliser avec les meilleurs modèles fermés
    • Se distingue par une génération rapide et un coût réduit, et est disponible via BFL Playground, l’API et les plateformes partenaires
  • FLUX.2 [flex]
    • Modèle permettant d’ajuster directement des paramètres comme le nombre d’étapes et l’échelle de guidance afin d’optimiser la qualité, la vitesse et le rendu du texte
    • Particulièrement performant pour l’expression typographique de précision
  • FLUX.2 [dev]
    • Modèle open weight 32B, présenté comme le modèle public le plus puissant à ce jour pour prendre en charge, dans un seul checkpoint, le texte→image et l’édition d’images multi-entrées
    • Poids disponibles sur Hugging Face, avec une implémentation optimisée FP8 réalisée en collaboration avec NVIDIA et ComfyUI
    • Utilisable via API sur FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra et d’autres
  • FLUX.2 [klein] (à venir)
    • Modèle open source sous licence Apache 2.0, qui sera proposé sous une forme légère et performante via une distillation de taille à partir de FLUX.2
  • FLUX.2 – VAE
    • Nouveau VAE optimisé pour équilibrer la facilité d’entraînement, la qualité et le taux de compression, élément central du backbone FLUX.2
    • Disponible sur Hugging Face sous licence Apache 2.0

Performances et valeur

  • La famille FLUX.2 offre une qualité de génération d’images de pointe à un prix compétitif
  • Parmi les modèles à poids ouverts, FLUX.2 [dev] affiche des performances supérieures à toutes les alternatives ouvertes pour la génération texte-image et l’édition à référence unique ou multiple
  • Tous les modèles sont encadrés avant et après leur lancement selon des principes de développement responsable

Architecture technique (How It Works)

  • Repose sur une architecture de latent flow matching, qui unifie génération et édition d’images dans une seule structure
  • Combine un modèle vision-langage Mistral-3 24B et un Rectified Flow Transformer
    • Le VLM apporte des connaissances sur le monde réel et une compréhension du contexte
    • Le transformer traite les relations spatiales, les propriétés des matériaux et la logique de composition
  • Peut combiner jusqu’à 10 images de référence pour produire un nouveau résultat
  • Réentraîne l’espace latent du modèle afin d’améliorer le trilemme apprentissage–qualité–taux de compression

Ressources complémentaires

Orientation future (Into the New)

  • FLUX.2 constitue une étape vers des modèles multimodaux intégrant perception, génération, mémoire et raisonnement
  • Il vise à devenir une technologie fondamentale de l’infrastructure d’intelligence visuelle, capable de transformer la manière dont le monde est perçu et compris
  • L’entreprise recrute actuellement à Freiburg et San Francisco

1 commentaires

 
GN⁺ 2025-11-27
Avis Hacker News
  • Ces derniers temps, il sort tellement de nouveaux modèles que mettre à jour le site de comparaison GenAI donne presque une impression de supplice de Sisyphe
    J’y ai quand même ajouté les résultats du nouveau modèle Flux 2 Pro Editing
    Vous pouvez les consulter sur la page des résultats
    Ce modèle a obtenu un score légèrement supérieur à Kontext de BFL, avec une note de 6, soit à peu près le milieu du classement parmi 12 modèles
    J’ajouterai bientôt des métriques numériques pour une évaluation plus fine
    Si vous voulez comparer uniquement Flux 2 Pro, Nano Banana Pro et Kontext, vous pouvez utiliser ce lien
    À noter que BFL semble prendre en charge une structure JSON pour des éditions plus précises, donc je me demande si cela pourrait améliorer encore l’exactitude

    • Ce serait mieux que le système de notation passe d’un simple succès/échec à une échelle de 0 à 10
      Le fait que Flux et Gemini Pro 3 reçoivent la même note dégrade la qualité du benchmark
    • La comparaison est utile, mais la diversité des styles manque
      Le modèle d’OpenAI a une signature trop marquée, donc il est faible en correspondance de style, et les performances de Flux varient selon le style
      Flux a essayé d’éviter un entraînement qui ferait la moyenne de plusieurs styles, mais cela entre en conflit avec l’objectif de produire des images visuellement attractives
      Au final, le problème de cohérence de style va probablement persister encore un moment
    • Pour l’instant, Google est clairement devant
      Seedream est aussi impressionnant, donc dans la prochaine version il pourrait être au niveau de Google
      La génération d’images donne presque l’impression d’être un problème résolu
    • Il y a une coquille sur le site : s/sttae/state/g à corriger
    • Je me demande si BFL aura encore l’énergie de continuer à rivaliser avec des géants comme Google et ByteDance (SeeDream)
      Leur nouveau modèle reste de niveau intermédiaire, et leur open source n’est pas aussi ouvert que les modèles chinois
      La qualité d’image de Flux donne toujours une impression de peau plastique et de texture artificielle
      Même si ça passe techniquement, je ne pense pas que je choisirais Flux dans un vrai workflow
      C’est peut-être un problème d’équipe data avec peu de sens esthétique
      Coincé entre Google et l’écosystème chinois, BFL est dans une position difficile
      D’autres entreprises de modèles média comme RunwayML, PikaLabs et LumaLabs connaissent des difficultés similaires
      Même si BFL a récemment levé un gros investissement, la concurrence avec les hyperscalers semble toujours trop lourde
  • Je suis content que le nouveau modèle soit aussi sorti en version open weights
    En revanche, je me demande ce qu’il est advenu du modèle vidéo SOTA qu’ils avaient annoncé auparavant
    Il était aussi mentionné dans cette vidéo YouTube, mais la page associée (bfl.ai/up-next) a été supprimée

    • En tant que startup, ils ont pivoté pour se concentrer sur les modèles d’image plutôt que vidéo
      Les modèles d’image ont plus de cas d’usage, et les jeux de données sont bien plus riches
    • D’après ce que j’ai entendu, l’entraînement du modèle vidéo s’est terminé par un échec à grande échelle, et le projet a été annulé
    • Les modèles d’image restent un axe technologique central
      L’image est la base de la vidéo, avec beaucoup plus d’éléments contrôlables
      Les modèles d’image offrent un feedback rapide et de la productivité, et il reste encore du chemin sur le contrôle du style, de la pose et de la cohérence
      Midjourney domine sur le plan esthétique mais manque de contrôle
      Flux a un rendu plastique, Imagen fait plus cartoon, et OpenAI semble daté
      Au final, il faut être compétitif à la fois sur l’esthétique, le contrôle et la reproductibilité
      La vidéo est une distraction dans ce travail
  • J’ai testé moi-même Flux 2 Pro (lien Replicate)
    Par rapport à Nano Banana, il n’y a pas de grande différence, et face à Flux 1.1 Pro il s’agit surtout d’une amélioration incrémentale

    • La cohérence du prompt s’est améliorée, mais la qualité d’image paraît plus artificielle
    • Le guide de prompt Flux 2 recommande par défaut les prompts JSON et la spécification des couleurs en HEX
    • Si l’on active le prompt upsampling, les capacités d’inférence s’améliorent, mais si on le désactive on obtient des résultats aberrants
    • L’API Flux 2 est très sensible aux questions d’IP, au point que certains cas ne passent qu’avec l’upsampling activé (exemple)
    • Le coût et la vitesse sont comparables à Nano Banana, mais dès qu’on utilise la fonction d’entrée d’image, Flux 2 Pro devient plus cher
    • Entre Flux 1.1 et 2, il n’y a pas de supériorité objective
    • Le simple fait que Flux puisse potentiellement tourner en local reste un avantage
      Si Google augmente ses prix ou change son API, il n’y a pas d’alternative, alors que BFL propose une option d’exécution locale
    • La sortie haute résolution (4K) de Flux 2 Pro peut parfois poser problème
      Elle ajoute des détails inutiles, un peu comme un upscale ESRGAN (lien de test)
    • La version Flux 2 Dev n’a pas de censure IP
  • FLUX.1 Pro Kontext reste excellent en expression artistique et en compréhension des consignes
    On peut aussi le constater dans ce billet de comparaison avec Nano Banana

  • FLUX.2 [dev] peut être exécuté en local sur GPU RTX avec une version optimisée fp8
    C’est bien qu’ils conservent les open weights, mais le modèle est passé de 12B à 32B, ce qui rend l’usage local plus contraignant
    J’attends une version distill

    • D’après la page Hugging Face,
      l’encodeur de texte demande 48 Go, le modèle de génération 64 Go, soit plus de 100 Go au total
      c’est une barrière d’entrée importante pour les utilisateurs en local
  • Cette fois, l’encodeur de texte est Mistral-Small-3.2-24B-Instruct-2506, meilleur que l’ancien duo CLIP/T5 mais volumineux
    S’ils avaient attendu de sortir un modèle distill sous Apache 2.0, ils se seraient peut-être mieux différenciés face à Nano Banana
    La structure tarifaire est aussi particulière — l’entrée coûte 0,015 $/MP, la sortie 0,03 $ pour le premier MP puis 0,015 $/MP ensuite

    • Qwen-Image-Edit-2511 doit sortir la semaine prochaine sous Apache 2.0, donc BFL semble avoir publié en urgence
    • CLIP était en pratique un choix sans intérêt. Même en mettant les poids à zéro, le résultat restait presque identique
    • La combinaison CLIP+T5 était utilisée à l’époque par beaucoup de modèles de génération d’image. Ce n’était pas un choix aberrant
    • À vouloir soigner la stratégie GTM, c’est le marché européen qui semble y avoir perdu
  • C’est bien de voir apparaître un concurrent à Nano Banana Pro
    Cela aide à maintenir la concurrence sur les prix

    • Dans des régions comme Hong Kong, où l’usage des modèles américains est restreint, ce type d’alternative est particulièrement important
      Google, OpenAI et Claude n’y sont pas accessibles par abonnement
    • C’est aussi agréable de voir une entreprise européenne active dans le domaine
  • À noter que la version open source FLUX.2-DEV n’autorise pas l’usage commercial
    Texte complet de la licence

  • J’ai comparé Nano Banana Pro et Flux 2 Pro avec le prompt “family guy cyberpunk 2077”,
    et le modèle de Google collait mieux à une scène de jeu, tandis que Flux donnait un rendu trop réaliste

    • Flux est entraîné sur un dataset centré photo, donc il est plus faible sur les styles artistiques
      Flux 2 Pro a montré la même tendance
      Mais avec l’écosystème LoRA et du temps de tuning, Flux 1 Dev reste fort pour le stylisme créatif
  • Une version 18GB 4bit quant est disponible dans diffusers, ce qui permet une exécution dans des environnements à faible VRAM