4 points par GN⁺ 2025-08-02 | 1 commentaires | Partager sur WhatsApp
  • Le premier modèle d’images de Krea 1 a été publié sous forme d’une version à poids ouverts nommée FLUX.1 Krea.
  • Contrairement aux modèles de génération d’images existants, il a été conçu en misant sur une préférence esthétique claire et le photo-réalisme, avec pour objectif de produire des images « non IA ».
  • Les benchmarks et indicateurs d’évaluation existants ont été analysés comme décalés par rapport à la sensibilité esthétique réelle des utilisateurs ; pour y remédier, des données directement sélectionnées et un biais esthétique centré sur les préférences ont été appliqués.
  • Le pré-entraînement (pre-training) et le post-entraînement (post-training) sont séparés, avec une phase pour garantir la diversité et une phase visant une convergence vers un style net.
  • À l’avenir, la recherche sur la personnalisation et l’adaptation au goût ainsi que l’élargissement des domaines visuels et des fonctions d’assistance aux créateurs seront renforcés.

Sortie open source de FLUX.1 Krea

  • Krea 1 est le premier modèle de génération d’images entraîné en collaboration avec Black Forest Labs, conçu pour exceller en contrôle esthétique et qualité d’image.
  • FLUX.1 Krea [dev] est publié avec des poids ouverts et est pleinement compatible avec l’écosystème FLUX.1-dev existant.
  • Ce modèle maximise le photo-réalisme et les éléments esthétiques, avec une orientation opinionated aesthetics reflétant des préférences esthétiques spécifiques.

Phénomène de l’« AI look » et limites

  • Les images générées par IA existantes présentent souvent ce qu’on appelle l’« AI look », avec par exemple des arrière-plans excessivement flous, une peau cireuse et une composition monotone.
  • En privilégiant l’optimisation des benchmarks et des indicateurs techniques, on sacrifie souvent la texture réaliste, la diversité stylistique et des résultats créatifs.
  • Limites des modèles d’évaluation actuels qui ne reflètent pas les préférences esthétiques réelles des utilisateurs
    • Au stade du pré-entraînement, Fréchet Inception Distance (FID) et CLIP Score sont utiles pour mesurer la performance globale du modèle.
    • Dans le monde académique et industriel, des benchmarks comme DPG, GenEval, T2I-Compbench, GenAI-Bench sont utilisés, mais ils évaluent surtout la conformité au prompt, les relations spatiales et la combinaison d’attributs.
    • Parmi les modèles d’évaluation esthétique figurent LAION-Aesthetics, Pickscore, ImageReward, HPSv2, mais la plupart sont basés sur CLIP et limités en résolution et nombre de paramètres.
    • Par exemple, LAION-Aesthetics présente un biais en faveur des images de femmes, de fond flou et de couleurs vives ; avec un tel filtrage, on peut imprimer au modèle des préjugés implicites.
  • Les critères et filtres esthétiques sont utiles pour éliminer les mauvaises images, mais une dépendance excessive à leur sélection pour le choix des données d’entraînement peut faire enraciner des biais dans le modèle.
  • Des indicateurs basés sur des vision-language models récents émergent, mais les préférences esthétiques restent subjectives et difficiles à réduire à une valeur unique.

Structure pré-entraînement (Pre-training) et post-entraînement (Post-training)

  • Pré-entraînement (Pre-training)

    • Lors du pré-entraînement, le modèle acquiert largement des connaissances sur le monde visuel (style, objets, personnages, lieux) pour maximiser la couverture des modes (mode coverage).
    • Des données « non désirées » sont également incluses pour que le modèle apprenne des caractéristiques indésirables (par ex. doigts anormaux, flou, etc.).
    • Le pré-entraînement détermine la limite de qualité maximale du modèle et sa diversité stylistique.
  • Post-entraînement (Post-training)

    • En post-entraînement, la distribution du modèle est concentrée sur les styles préférés via le mode collapsing, convergeant vers une direction esthétique claire plutôt que vers l’« AI look ».
    • Réalisé en deux étapes avec Supervised Finetuning (SFT) et RLHF (renforcement de la préférence)
      • SFT : utilisation d’un jeu de données de haute qualité sélectionné directement et des images synthétiques de Krea-1
      • RLHF : optimisation répétée sur la base de données de préférence interne pour affiner finement l’esthétique et le style
    • La qualité des données s’est révélée déterminante par rapport à leur volume (jusqu’à 1 M de données de haute qualité suffisent).
    • L’application de labels de préférence esthétique avec une approche opinionated permet d’éviter une régression vers l’AI look et une monotonie quand on s’appuie uniquement sur des données de préférence publiques.

Pipeline du modèle et insights expérimentaux

  • Utilisation du modèle de base guidance-distilled flux-dev-raw à 12 B paramètres, ce qui le distingue des modèles open source surapprivoisés par finetuning.
  • En phase RLHF, la méthode TPO (preference optimization) est appliquée pour renforcer le sens esthétique et les propriétés de stylisation.
  • Des données de préférence internes de haute qualité (filtrage strict) sont réutilisées plusieurs fois pour affiner précisément les sorties du modèle.
    • Principales observations

        1. La qualité des données compte davantage que leur quantité. Un post-training significatif est possible avec moins de 1 M d’exemples ; la diversité quantitative aide à atténuer les biais et à stabiliser, mais l’élément décisif reste des données soigneusement sélectionnées.
        1. Il est nécessaire de collecter des données centrées sur une préférence claire. Les datasets publics grand public introduisent des biais involontaires, une régression vers l’AI look et des biais de composition / couleur simplifiés.
        • Pour des objectifs objectifs tels que la réalisation de texte, l’anatomie et la structure, la diversité des données aide, mais pour des objectifs subjectifs comme le goût esthétique, des données spécialisées sont plus efficaces qu’un mélange.
        • Lorsque l’on mélange de nombreuses distributions esthétiques, le résultat ne satisfait souvent personne, et le recours à des méthodes de post-traitement comme LoRA par de nombreux utilisateurs est également mentionné.

Pistes futures de recherche et conclusion

  • Krea 1 est un premier pas pour les créateurs qui privilégient les standards esthétiques et la qualité, et il est attendu que la communauté open source s’élargisse.
  • À l’avenir, l’objectif est d’offrir des modèles correspondant aux goûts esthétiques des utilisateurs grâce à un renforcement des compétences clés, un support de domaines visuels plus étendu et des recherches sur la personnalisation/contrôlabilité.
  • Voir GitHub ( https://github.com/krea-ai/flux-krea )

1 commentaires

 
GN⁺ 2025-08-02
Commentaires Hacker News
  • Bonjour à tous, ravi d’être là. Je suis le cofondateur et CTO de Krea. Cela faisait longtemps que nous voulions publier les poids de notre modèle et les partager avec la communauté HN. Je vais essayer de rester en ligne autant que possible aujourd’hui pour répondre à vos questions
    • Je me demande si vous prévoyez de prendre en charge la version Flux « Kontext », c’est-à-dire le modèle d’édition. Le potentiel de l’édition d’images basée sur des prompts semble énorme. Je n’ai pas encore vu la qualité de la version open weights, mais la démo était très impressionnante. À noter que ce modèle fait aussi 12B
    • Je me demande quel est l’objectif de cette publication. Y a-t-il un but business précis, ou est-ce vraiment une contribution désintéressée ?
    • Il faut un modèle qui prenne aussi en charge des langues autres que l’anglais
    • Je me demande comment vous tranchez concrètement le conflit dans l’exemple P(.|photo) vs P(.|minimal). À mon avis, le photoréalisme devrait être la valeur par défaut. Par exemple, si l’utilisateur écrit « un chat qui lit un livre », le résultat devrait être un vrai chat lisant un livre, et non un style IA ou une illustration. Sans autre contexte, il me semble naturel d’interpréter « chat » comme un chat réaliste. Si l’utilisateur veut une illustration ou un autre style, ne devrait-il pas l’indiquer explicitement dans le prompt ? Je me demande s’il y a une nuance qui m’échappe
  • Belle publication. J’ai fait un test rapide avec le modèle Krea 12b Txt2Img. Son point fort le plus évident, c’est sa vitesse (et probablement aussi son réalisme). En revanche, sans surprise, il n’a pas obtenu de meilleurs scores que le modèle Flux.1D classique en matière de <i>prompt adherence</i>. Les résultats sont visibles sur https://genai-showdown.specr.net. Par ailleurs, il semble que Wan 2.2+ puisse jouer un rôle important à l’avenir sur le T2I, mais il faudra peut-être énormément de LoRA pour compenser le manque de diversité des images
    • Pourriez-vous partager l’URL des résultats de vos tests ? Et à titre d’information, ce modèle a été davantage axé sur l’<i>aesthetics</i> que sur la stricte fidélité au prompt. Ce n’est pas une excuse pour des échantillons médiocres ; je veux simplement souligner que cela faisait partie des objectifs de recherche. C’est un compromis inévitable si l’on veut éliminer ce qu’on appelle le « flux look ». Et certaines personnes génèrent une image de base avec Wan 2.2 puis la raffinent avec Krea ; c’est une approche assez intéressante
  • Bonjour ! Je suis le chercheur principal de Krea-1 FLUX.1. Krea est un Rectified Flow Model 12B distillé à partir de Krea-1, conçu pour être compatible avec l’architecture FLUX. Je peux répondre aux questions techniques
    • Je viens de la production média traditionnelle. Le fait de décomposer les médias en plusieurs couches à combiner est essentiel pour la maîtrise des coûts et de la qualité. Or les méthodes actuelles de génération d’images, de vidéos et d’audio par IA ne prennent pas cela en charge. ForgeUI l’a brièvement permis, puis a arrêté. Je pense que c’est parce qu’ils ne comprennent pas les besoins réels de la production média à grande échelle. Je me demande si votre équipe compte des personnes ayant une vraie expérience de terrain en VFX cinéma, publicité animée ou productions à plusieurs millions de dollars. Si vous voulez réussir, il faut absolument prendre en charge les workflows de production média traditionnels. Les outils IA actuels ne s’intègrent pas du tout aux outils ou aux attentes de la production, donc ils ne sont pas adoptés sur le terrain
    • La qualité du modèle est vraiment excellente. J’ai été particulièrement impressionné par la partie disant que « flux-dev-raw étant un guidance distilled model, vous avez créé une fonction de perte sur mesure pour le fine-tuning direct sur la distribution classifier-free guided ». J’aimerais beaucoup avoir plus de détails là-dessus et des conseils de fine-tuning. Dans la communauté open source de l’art IA aussi, le fine-tuning du flux-dev distilled original est réputé très difficile
    • Merci beaucoup pour cet effort. Pourriez-vous expliquer ce que signifie « conçu pour être compatible avec l’architecture FLUX » et pourquoi c’est important ?
  • J’ai du mal à comprendre un fichier safetensor de 23,8 Go pour un modèle de 12B paramètres. Je pensais qu’1B paramètre nécessitait 1 Go de VRAM ; est-ce que ce modèle utilise 24 Go de VRAM ou 12 Go ? Je voudrais savoir si mon raisonnement est faux
    • En bfloat16, on a 1B x 16 bits = 2 Go, donc pour 12B on est bien proche de 24 Go. Le passage de float32 à bfloat16 entraîne très peu de perte de performances, donc c’est dans ce format qu’il a été publié
    • La taille en float varie selon le type de paramètre. Beaucoup de modèles sont distribués en FP8 (8 bits/paramètre), mais celui-ci est en FP16 (16 bits). Il est fréquent d’entraîner en FP16 puis de quantifier en FP8 ou FP4 pour la distribution
    • On peut considérer qu’un modèle quantifié en 8 bits suit à peu près la règle 1B = 1 Go, mais en 16 bits ou 32 bits il faut 2 à 4 fois plus
  • J’ai obtenu un résultat curieux avec un prompt simple : « Octopus DJ spinning the turntables at a rave. » Les mains humaines qui apparaissent sur le DJ sont frappantes. Je n’ai pas réussi à les faire disparaître, quel que soit le prompt. Comme le mentionne l’article, le modèle est clairement opinionated
    • En utilisant le prompt « Octopus DJ with no fingers », les mains ont disparu, mais en même temps toutes les caractéristiques humaines de la pieuvre aussi ; il ne restait plus qu’une pieuvre pure faisant tourner les platines
  • L’image que j’ai toujours voulu obtenir est un Galton board. Deux billes tombent depuis deux trous légèrement espacés en haut, l’une bleue et l’autre rouge. En bas, la distribution combinée des deux couleurs montre que la colonne suit une double loi normale. Image de référence : https://imgur.com/a/DiAOTzJ (deux becs verseurs en haut). Mes essais réels : https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Je me demande si vous avez déjà essayé d’en fabriquer un en vrai. Je n’ai pas trouvé de vidéo d’un double Galton board
  • hey hn ! Je suis cofondateur de Krea. Nous avons publié un billet de blog expliquant comment nous avons entraîné FLUX Krea, si vous voulez plus de détails : https://www.krea.ai/blog/flux-krea-open-source-release
    • Question hors sujet, mais avez-vous vraiment caché la barre de défilement sur votre site ? Je ne comprends pas pourquoi.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Je me demande si vous proposez une version optimisée NVIDIA, comme FLUX.1 Kontext accéléré par RTX : https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • Nous n’avons pas créé de version RTX accélérée spécifique pour FLUX.1 Krea. En revanche, le modèle est entièrement compatible avec la codebase existante de FLUX.1 dev. Il ne semble pas y avoir d’export ONNX dédié. Une bonne suite de travaux serait de proposer des checkpoints quantifiés en 4 à 8 bits avec SVDQuant pour le rendre plus accessible sur du matériel grand public
  • Liens utiles :
  • Je recommande de fournir un parcours bien documenté afin que les entreprises puissent disposer d’un cadre de licence clair pour l’usage commercial lorsqu’elles obtiennent les résultats qu’elles veulent (vous verrez vite pourquoi !)