Publication de Stable Diffusion 3.5

xguru · 2024-10-24T11:26:01+09:00

Inclut plusieurs versions du modèle, capables de fonctionner sur du matériel grand public et d’être personnalisées de manière flexible, avec un usage gratuit pour la plupart des cas d’usage Les modèles Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo peuvent être téléchargés sur Hugging Face, et le code d’inférence sur GitHub Modèles publiés Stable Diffusion 3.5 Large : modèle de base doté de 8 milliards de paramètres, le plus puissant de la famille Stable Diffusion. Idéal pour des usages professionnels à une résolution de 1 mégapixel Stable Diffusion 3.5 Large Turbo : version distillée de Stable Diffusion 3.5 Large, qui génère des images de haute qualité avec une excellente fidélité au prompt en seulement 4 étapes. Nettement plus rapide que Stable Diffusion 3.5 Large Stable Diffusion 3.5 Medium (sortie prévue le 29 octobre) : doté de 2,5 milliards de paramètres, conçu pour fonctionner directement sur du matériel grand public grâce à une architecture MMDiT-X améliorée et à une méthode d’entraînement optimisée. Vise un équilibre entre qualité et facilité de personnalisation. Capable de générer des images de 0,25 à 2 mégapixels Processus de développement du modèle Lors du développement du modèle, la priorité a été donnée aux possibilités de personnalisation afin de fournir une base flexible Pour cela, Query-Key Normalization a été intégré aux blocs de transformer afin de stabiliser le processus d’entraînement du modèle et de simplifier le fine-tuning ainsi que les développements supplémentaires Certains compromis ont été nécessaires pour prendre en charge la flexibilité en aval À prompt identique, faire varier le seed peut accroître la variabilité des sorties. Cela est intentionnel afin d’aider le modèle de base à conserver une base de connaissances plus large et des styles plus variés En revanche, des prompts manquant de spécificité peuvent augmenter l’incertitude des sorties, avec un niveau esthétique variable Pour le modèle Medium, l’architecture et le protocole d’entraînement ont été ajustés à plusieurs reprises afin d’améliorer la qualité, la cohérence et la capacité de génération multi-résolution Atouts de Stable Diffusion 3.5 Facilité de personnalisation : possibilité de fine-tuner facilement le modèle pour des besoins créatifs spécifiques, ou de créer des applications reposant sur des workflows sur mesure Performance efficace : les modèles Stable Diffusion 3.5 Medium et Stable Diffusion 3.5 Large Turbo en particulier sont optimisés pour fonctionner sur du matériel grand public standard sans exigences lourdes Sorties variées : capable de générer des images représentant des personnes du monde entier, avec une grande diversité de teintes de peau et de caractéristiques, sans prompting étendu Stable Diffusion 3.5 Large est leader du marché en matière de fidélité au prompt et rivalise en qualité d’image avec des modèles bien plus volumineux Stable Diffusion 3.5 Large Turbo offre le temps d’inférence le plus rapide de sa catégorie en termes de taille, tout en restant très compétitif sur la qualité d’image et la fidélité au prompt Stable Diffusion 3.5 Medium surpasse les autres modèles de taille intermédiaire, en équilibrant fidélité au prompt et qualité d’image pour offrir des performances efficaces et de haute qualité Aperçu de la Stability AI Community License Gratuit pour un usage non commercial : les particuliers et les organisations peuvent l’utiliser gratuitement à des fins non commerciales, y compris la recherche scientifique Gratuit pour un usage commercial jusqu’à 1 million de dollars de chiffre d’affaires annuel : les startups, PME et créateurs peuvent l’utiliser gratuitement à des fins commerciales si leur chiffre d’affaires annuel est inférieur à 1 million de dollars Propriété des productions : possibilité de conserver la propriété des médias générés sans implication de licence restrictive Les organisations réalisant plus de 1 million de dollars de chiffre d’affaires annuel peuvent contacter Stability AI pour se renseigner sur une licence entreprise Comment accéder aux modèles Les poids des modèles sont actuellement disponibles sur Hugging Face pour un self-hosting Les modèles sont également accessibles via des plateformes telles que Stability AI API, Replicate, ComfyUI et DeepInfra L’engagement de Stability AI en matière de sécurité Stability AI croit en des pratiques d’IA sûres et responsables, et prend des mesures délibérées dès les premières étapes du développement afin de garantir l’intégrité Des mesures raisonnables sont prises pour prévenir les usages abusifs de Stable Diffusion 3.5 par des acteurs malveillants Feuille de route Sortie publique de Stable Diffusion 3.5 Medium prévue le 29 octobre Lancement prévu peu après de ControlNets, offrant des fonctionnalités de contrôle avancées pour divers usages professionnels

(stability.ai)

10 points par xguru 2024-10-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Inclut plusieurs versions du modèle, capables de fonctionner sur du matériel grand public et d’être personnalisées de manière flexible, avec un usage gratuit pour la plupart des cas d’usage
Les modèles Stable Diffusion 3.5 Large et Stable Diffusion 3.5 Large Turbo peuvent être téléchargés sur Hugging Face, et le code d’inférence sur GitHub
Modèles publiés
- Stable Diffusion 3.5 Large : modèle de base doté de 8 milliards de paramètres, le plus puissant de la famille Stable Diffusion. Idéal pour des usages professionnels à une résolution de 1 mégapixel
- Stable Diffusion 3.5 Large Turbo : version distillée de Stable Diffusion 3.5 Large, qui génère des images de haute qualité avec une excellente fidélité au prompt en seulement 4 étapes. Nettement plus rapide que Stable Diffusion 3.5 Large
- Stable Diffusion 3.5 Medium (sortie prévue le 29 octobre) : doté de 2,5 milliards de paramètres, conçu pour fonctionner directement sur du matériel grand public grâce à une architecture MMDiT-X améliorée et à une méthode d’entraînement optimisée. Vise un équilibre entre qualité et facilité de personnalisation. Capable de générer des images de 0,25 à 2 mégapixels

Processus de développement du modèle

Lors du développement du modèle, la priorité a été donnée aux possibilités de personnalisation afin de fournir une base flexible
Pour cela, Query-Key Normalization a été intégré aux blocs de transformer afin de stabiliser le processus d’entraînement du modèle et de simplifier le fine-tuning ainsi que les développements supplémentaires
Certains compromis ont été nécessaires pour prendre en charge la flexibilité en aval
À prompt identique, faire varier le seed peut accroître la variabilité des sorties. Cela est intentionnel afin d’aider le modèle de base à conserver une base de connaissances plus large et des styles plus variés
En revanche, des prompts manquant de spécificité peuvent augmenter l’incertitude des sorties, avec un niveau esthétique variable
Pour le modèle Medium, l’architecture et le protocole d’entraînement ont été ajustés à plusieurs reprises afin d’améliorer la qualité, la cohérence et la capacité de génération multi-résolution

Atouts de Stable Diffusion 3.5

Facilité de personnalisation : possibilité de fine-tuner facilement le modèle pour des besoins créatifs spécifiques, ou de créer des applications reposant sur des workflows sur mesure
Performance efficace : les modèles Stable Diffusion 3.5 Medium et Stable Diffusion 3.5 Large Turbo en particulier sont optimisés pour fonctionner sur du matériel grand public standard sans exigences lourdes
Sorties variées : capable de générer des images représentant des personnes du monde entier, avec une grande diversité de teintes de peau et de caractéristiques, sans prompting étendu
Stable Diffusion 3.5 Large est leader du marché en matière de fidélité au prompt et rivalise en qualité d’image avec des modèles bien plus volumineux
Stable Diffusion 3.5 Large Turbo offre le temps d’inférence le plus rapide de sa catégorie en termes de taille, tout en restant très compétitif sur la qualité d’image et la fidélité au prompt
Stable Diffusion 3.5 Medium surpasse les autres modèles de taille intermédiaire, en équilibrant fidélité au prompt et qualité d’image pour offrir des performances efficaces et de haute qualité

Aperçu de la Stability AI Community License

Gratuit pour un usage non commercial : les particuliers et les organisations peuvent l’utiliser gratuitement à des fins non commerciales, y compris la recherche scientifique
Gratuit pour un usage commercial jusqu’à 1 million de dollars de chiffre d’affaires annuel : les startups, PME et créateurs peuvent l’utiliser gratuitement à des fins commerciales si leur chiffre d’affaires annuel est inférieur à 1 million de dollars
Propriété des productions : possibilité de conserver la propriété des médias générés sans implication de licence restrictive
Les organisations réalisant plus de 1 million de dollars de chiffre d’affaires annuel peuvent contacter Stability AI pour se renseigner sur une licence entreprise

Comment accéder aux modèles

Les poids des modèles sont actuellement disponibles sur Hugging Face pour un self-hosting
Les modèles sont également accessibles via des plateformes telles que Stability AI API, Replicate, ComfyUI et DeepInfra

L’engagement de Stability AI en matière de sécurité

Stability AI croit en des pratiques d’IA sûres et responsables, et prend des mesures délibérées dès les premières étapes du développement afin de garantir l’intégrité
Des mesures raisonnables sont prises pour prévenir les usages abusifs de Stable Diffusion 3.5 par des acteurs malveillants

Feuille de route

Sortie publique de Stable Diffusion 3.5 Medium prévue le 29 octobre
Lancement prévu peu après de ControlNets, offrant des fonctionnalités de contrôle avancées pour divers usages professionnels