8 points par GN⁺ 2024-08-02 | 1 commentaires | Partager sur WhatsApp
  • Le plus grand modèle open source SOTA de génération texte-vers-image, développé par Black Forest Labs
    • L’équipe d’origine qui a créé Stable Diffusion
  • Avec 12B de paramètres, il repousse les limites de la créativité et des performances, en offrant des capacités de génération d’images comparables à Midjourney

Disponible en 3 modèles

  • FLUX.1 [dev] : modèle de base open source sous licence non commerciale. La communauté peut développer à partir de celui-ci
  • FLUX.1 [schnell] : version distillée du modèle de base, fonctionnant jusqu’à 10 fois plus vite. Licence Apache 2.
  • FLUX.1 [pro] : version fermée disponible uniquement via API

Principales caractéristiques

  • Qualité d’image améliorée : permet de générer des visuels impressionnants en haute résolution
  • Anatomie humaine avancée et photoréalisme : permet de créer des images très réalistes et anatomiquement précises
  • Meilleur respect des prompts : permet de générer des images plus précises et plus pertinentes à partir des entrées
  • Excellente vitesse : la rapidité et l’efficacité de Flux Schnell en font une solution idéale pour les applications à forte demande

Intégration de fal

  • Intègre le moteur d’inférence de pointe de fal, permettant d’exécuter les modèles Flux jusqu’à 2 fois plus vite que eager torch
  • Temps de traitement rapides tout en conservant une excellente qualité et un haut niveau de détail

Récap GN⁺

  • Flux est le dernier modèle texte-vers-image développé par Black Forest Labs, qui établit une nouvelle référence en matière de créativité et de performances
  • Grâce à différentes variantes, il propose des solutions adaptées à divers cas d’usage
  • Sa qualité d’image améliorée et son rendu réaliste le rendent adapté aux applications à forte demande
  • Le moteur d’inférence de fal permet une exécution encore plus rapide et plus efficace des modèles
  • Parmi les autres projets aux fonctionnalités similaires, on trouve DALL-E et Midjourney

1 commentaires

 
GN⁺ 2024-08-02
Avis sur Hacker News
  • burkay from fal.ai : le modèle n’a pas été créé par fal, mais par Black Forest Labs

    • fal.ai exécute le modèle sur un moteur d’inférence optimisé, ce qui le rend très rapide
    • il est possible d’essayer le modèle dans le playground
    • le modèle [schnell] est disponible en open source sur Hugging Face sous licence Apache
    • le rendu du texte est très rapide et excellent, et il dispose d’un encodeur de texte capable de mieux gérer le texte et son positionnement
    • lorsque le rendu du texte s’améliore, les filigranes textuels des données d’entraînement apparaissent plus clairement
    • lien fourni pour essayer le modèle
      • FLUX.1 [schnell] : Apache 2.0, poids ouverts, distillation par étapes
      • FLUX.1 [dev] : non commercial, poids ouverts, distillation guidée (connexion requise)
      • FLUX.1 [pro] : closed source, SOTA, données brutes (utilisable uniquement via API)
  • Un autre utilisateur : la plupart des comparaisons ne testent pas correctement le nouveau modèle

    • aujourd’hui, la meilleure adhérence aux prompts du marché reste DALL-E 3, mais il reste insuffisant sur les concepts complexes et très censuré
    • après comparaison entre Flux et DALL-E 3, Flux est impressionnant et très performant
    • les résultats de la comparaison ont été publiés sur un blog
  • Un autre utilisateur : test effectué avec les prompts d’ideogram, et Flux génère de très bonnes images

    • j’ai essayé ideogram, mais je n’aime pas ses filtres
    • s’il peut être exécuté en local, il s’en rapproche beaucoup en qualité d’image et en adhérence aux prompts
    • quand le texte devient complexe, il ne l’écrit pas clairement
    • un prompt d’exemple d’une image ideogram est fourni
    • cela fait longtemps que je n’utilise plus les modèles de Stable Diffusion, la technologie est devenue trop complexe et n’est plus amusante
    • je veux un système comme ideogram, exécutable en local et sans filtres
    • ce modèle est vraiment très bon
  • Un autre utilisateur : à chaque nouveau modèle, je vérifie s’il peut produire des diagrammes d’ingénierie

    • ce modèle ne gère pas encore bien les diagrammes d’ingénierie
    • j’aimerais qu’une entreprise d’IA résolve enfin ce problème des diagrammes d’ingénierie
    • il est très probable que cela ne figure pas dans le jeu de données d’entraînement actuel
    • j’aimerais créer un jeu de données synthétique / benchmark
  • Un autre utilisateur : la procédure d’inscription est pénible

    • la création d’un compte GitHub renvoyait actuellement une erreur, ce qui a nécessité deux tentatives et deux navigateurs
  • Un autre utilisateur : des startups financées par du capital-risque continuent de publier gratuitement des modèles sans modèle économique

    • je soutiens l’open source, mais je m’inquiète de la viabilité à long terme
  • Un autre utilisateur : qualité impressionnante

  • Un autre utilisateur : il gère mal les relations spatiales

    • "maison à l’envers" -> maison ordinaire
    • "cheval assis sur un chien" -> le cheval et le chien sont côte à côte
    • "Lockheed Martin F-22 Raptor renversé" -> résultat incorrect