- Le premier modèle d’images de Krea 1 a été publié sous forme d’une version à poids ouverts nommée FLUX.1 Krea.
- Contrairement aux modèles de génération d’images existants, il a été conçu en misant sur une préférence esthétique claire et le photo-réalisme, avec pour objectif de produire des images « non IA ».
- Les benchmarks et indicateurs d’évaluation existants ont été analysés comme décalés par rapport à la sensibilité esthétique réelle des utilisateurs ; pour y remédier, des données directement sélectionnées et un biais esthétique centré sur les préférences ont été appliqués.
- Le pré-entraînement (pre-training) et le post-entraînement (post-training) sont séparés, avec une phase pour garantir la diversité et une phase visant une convergence vers un style net.
- À l’avenir, la recherche sur la personnalisation et l’adaptation au goût ainsi que l’élargissement des domaines visuels et des fonctions d’assistance aux créateurs seront renforcés.
Sortie open source de FLUX.1 Krea
- Krea 1 est le premier modèle de génération d’images entraîné en collaboration avec Black Forest Labs, conçu pour exceller en contrôle esthétique et qualité d’image.
- FLUX.1 Krea [dev] est publié avec des poids ouverts et est pleinement compatible avec l’écosystème FLUX.1-dev existant.
- Ce modèle maximise le photo-réalisme et les éléments esthétiques, avec une orientation opinionated aesthetics reflétant des préférences esthétiques spécifiques.
Phénomène de l’« AI look » et limites
- Les images générées par IA existantes présentent souvent ce qu’on appelle l’« AI look », avec par exemple des arrière-plans excessivement flous, une peau cireuse et une composition monotone.
- En privilégiant l’optimisation des benchmarks et des indicateurs techniques, on sacrifie souvent la texture réaliste, la diversité stylistique et des résultats créatifs.
- Limites des modèles d’évaluation actuels qui ne reflètent pas les préférences esthétiques réelles des utilisateurs
- Au stade du pré-entraînement, Fréchet Inception Distance (FID) et CLIP Score sont utiles pour mesurer la performance globale du modèle.
- Dans le monde académique et industriel, des benchmarks comme DPG, GenEval, T2I-Compbench, GenAI-Bench sont utilisés, mais ils évaluent surtout la conformité au prompt, les relations spatiales et la combinaison d’attributs.
- Parmi les modèles d’évaluation esthétique figurent LAION-Aesthetics, Pickscore, ImageReward, HPSv2, mais la plupart sont basés sur CLIP et limités en résolution et nombre de paramètres.
- Par exemple, LAION-Aesthetics présente un biais en faveur des images de femmes, de fond flou et de couleurs vives ; avec un tel filtrage, on peut imprimer au modèle des préjugés implicites.
- Les critères et filtres esthétiques sont utiles pour éliminer les mauvaises images, mais une dépendance excessive à leur sélection pour le choix des données d’entraînement peut faire enraciner des biais dans le modèle.
- Des indicateurs basés sur des vision-language models récents émergent, mais les préférences esthétiques restent subjectives et difficiles à réduire à une valeur unique.
Structure pré-entraînement (Pre-training) et post-entraînement (Post-training)
-
Pré-entraînement (Pre-training)
- Lors du pré-entraînement, le modèle acquiert largement des connaissances sur le monde visuel (style, objets, personnages, lieux) pour maximiser la couverture des modes (mode coverage).
- Des données « non désirées » sont également incluses pour que le modèle apprenne des caractéristiques indésirables (par ex. doigts anormaux, flou, etc.).
- Le pré-entraînement détermine la limite de qualité maximale du modèle et sa diversité stylistique.
-
Post-entraînement (Post-training)
- En post-entraînement, la distribution du modèle est concentrée sur les styles préférés via le mode collapsing, convergeant vers une direction esthétique claire plutôt que vers l’« AI look ».
- Réalisé en deux étapes avec Supervised Finetuning (SFT) et RLHF (renforcement de la préférence)
- SFT : utilisation d’un jeu de données de haute qualité sélectionné directement et des images synthétiques de Krea-1
- RLHF : optimisation répétée sur la base de données de préférence interne pour affiner finement l’esthétique et le style
- La qualité des données s’est révélée déterminante par rapport à leur volume (jusqu’à 1 M de données de haute qualité suffisent).
- L’application de labels de préférence esthétique avec une approche opinionated permet d’éviter une régression vers l’AI look et une monotonie quand on s’appuie uniquement sur des données de préférence publiques.
Pipeline du modèle et insights expérimentaux
- Utilisation du modèle de base guidance-distilled flux-dev-raw à 12 B paramètres, ce qui le distingue des modèles open source surapprivoisés par finetuning.
- En phase RLHF, la méthode TPO (preference optimization) est appliquée pour renforcer le sens esthétique et les propriétés de stylisation.
- Des données de préférence internes de haute qualité (filtrage strict) sont réutilisées plusieurs fois pour affiner précisément les sorties du modèle.
-
Principales observations
-
- La qualité des données compte davantage que leur quantité. Un post-training significatif est possible avec moins de 1 M d’exemples ; la diversité quantitative aide à atténuer les biais et à stabiliser, mais l’élément décisif reste des données soigneusement sélectionnées.
-
- Il est nécessaire de collecter des données centrées sur une préférence claire. Les datasets publics grand public introduisent des biais involontaires, une régression vers l’AI look et des biais de composition / couleur simplifiés.
- Pour des objectifs objectifs tels que la réalisation de texte, l’anatomie et la structure, la diversité des données aide, mais pour des objectifs subjectifs comme le goût esthétique, des données spécialisées sont plus efficaces qu’un mélange.
- Lorsque l’on mélange de nombreuses distributions esthétiques, le résultat ne satisfait souvent personne, et le recours à des méthodes de post-traitement comme LoRA par de nombreux utilisateurs est également mentionné.
Pistes futures de recherche et conclusion
- Krea 1 est un premier pas pour les créateurs qui privilégient les standards esthétiques et la qualité, et il est attendu que la communauté open source s’élargisse.
- À l’avenir, l’objectif est d’offrir des modèles correspondant aux goûts esthétiques des utilisateurs grâce à un renforcement des compétences clés, un support de domaines visuels plus étendu et des recherches sur la personnalisation/contrôlabilité.
- Voir GitHub ( https://github.com/krea-ai/flux-krea )
Aucun commentaire pour le moment.