Flux - modèle open source Text-To-Image de 12B de paramètres

(blog.fal.ai)

8 points par GN⁺ 2024-08-02 | 1 commentaires | Partager sur WhatsApp

Le plus grand modèle open source SOTA de génération texte-vers-image, développé par Black Forest Labs
- L’équipe d’origine qui a créé Stable Diffusion
Avec 12B de paramètres, il repousse les limites de la créativité et des performances, en offrant des capacités de génération d’images comparables à Midjourney

Disponible en 3 modèles

FLUX.1 [dev] : modèle de base open source sous licence non commerciale. La communauté peut développer à partir de celui-ci
FLUX.1 [schnell] : version distillée du modèle de base, fonctionnant jusqu’à 10 fois plus vite. Licence Apache 2.
FLUX.1 [pro] : version fermée disponible uniquement via API

Principales caractéristiques

Qualité d’image améliorée : permet de générer des visuels impressionnants en haute résolution
Anatomie humaine avancée et photoréalisme : permet de créer des images très réalistes et anatomiquement précises
Meilleur respect des prompts : permet de générer des images plus précises et plus pertinentes à partir des entrées
Excellente vitesse : la rapidité et l’efficacité de Flux Schnell en font une solution idéale pour les applications à forte demande

Intégration de fal

Intègre le moteur d’inférence de pointe de fal, permettant d’exécuter les modèles Flux jusqu’à 2 fois plus vite que eager torch
Temps de traitement rapides tout en conservant une excellente qualité et un haut niveau de détail

Récap GN⁺

Flux est le dernier modèle texte-vers-image développé par Black Forest Labs, qui établit une nouvelle référence en matière de créativité et de performances
Grâce à différentes variantes, il propose des solutions adaptées à divers cas d’usage
Sa qualité d’image améliorée et son rendu réaliste le rendent adapté aux applications à forte demande
Le moteur d’inférence de fal permet une exécution encore plus rapide et plus efficace des modèles
Parmi les autres projets aux fonctionnalités similaires, on trouve DALL-E et Midjourney

1 commentaires

GN⁺ 2024-08-02

Avis sur Hacker News

burkay from fal.ai : le modèle n’a pas été créé par fal, mais par Black Forest Labs
- fal.ai exécute le modèle sur un moteur d’inférence optimisé, ce qui le rend très rapide
- il est possible d’essayer le modèle dans le playground
- le modèle [schnell] est disponible en open source sur Hugging Face sous licence Apache
- le rendu du texte est très rapide et excellent, et il dispose d’un encodeur de texte capable de mieux gérer le texte et son positionnement
- lorsque le rendu du texte s’améliore, les filigranes textuels des données d’entraînement apparaissent plus clairement
- lien fourni pour essayer le modèle
  - FLUX.1 [schnell] : Apache 2.0, poids ouverts, distillation par étapes
  - FLUX.1 [dev] : non commercial, poids ouverts, distillation guidée (connexion requise)
  - FLUX.1 [pro] : closed source, SOTA, données brutes (utilisable uniquement via API)
Un autre utilisateur : la plupart des comparaisons ne testent pas correctement le nouveau modèle
- aujourd’hui, la meilleure adhérence aux prompts du marché reste DALL-E 3, mais il reste insuffisant sur les concepts complexes et très censuré
- après comparaison entre Flux et DALL-E 3, Flux est impressionnant et très performant
- les résultats de la comparaison ont été publiés sur un blog
Un autre utilisateur : test effectué avec les prompts d’ideogram, et Flux génère de très bonnes images
- j’ai essayé ideogram, mais je n’aime pas ses filtres
- s’il peut être exécuté en local, il s’en rapproche beaucoup en qualité d’image et en adhérence aux prompts
- quand le texte devient complexe, il ne l’écrit pas clairement
- un prompt d’exemple d’une image ideogram est fourni
- cela fait longtemps que je n’utilise plus les modèles de Stable Diffusion, la technologie est devenue trop complexe et n’est plus amusante
- je veux un système comme ideogram, exécutable en local et sans filtres
- ce modèle est vraiment très bon
Un autre utilisateur : à chaque nouveau modèle, je vérifie s’il peut produire des diagrammes d’ingénierie
- ce modèle ne gère pas encore bien les diagrammes d’ingénierie
- j’aimerais qu’une entreprise d’IA résolve enfin ce problème des diagrammes d’ingénierie
- il est très probable que cela ne figure pas dans le jeu de données d’entraînement actuel
- j’aimerais créer un jeu de données synthétique / benchmark
Un autre utilisateur : la procédure d’inscription est pénible
- la création d’un compte GitHub renvoyait actuellement une erreur, ce qui a nécessité deux tentatives et deux navigateurs
Un autre utilisateur : des startups financées par du capital-risque continuent de publier gratuitement des modèles sans modèle économique
- je soutiens l’open source, mais je m’inquiète de la viabilité à long terme
Un autre utilisateur : qualité impressionnante
Un autre utilisateur : il gère mal les relations spatiales
- "maison à l’envers" -> maison ordinaire
- "cheval assis sur un chien" -> le cheval et le chien sont côte à côte
- "Lockheed Martin F-22 Raptor renversé" -> résultat incorrect

Flux - modèle open source Text-To-Image de 12B de paramètres

Disponible en 3 modèles

Principales caractéristiques

Intégration de fal

Récap GN⁺

À lire aussi

1 commentaires

Avis sur Hacker News