9 points par xguru 2024-02-23 | 1 commentaires | Partager sur WhatsApp
  • Stable Diffusion 3 est présenté comme le meilleur modèle texte-image, avec des améliorations significatives en matière de prompts multi-thématiques, de qualité d’image et de capacité d’orthographe
  • Bien qu’il ne soit pas encore largement disponible, les inscriptions à la liste d’attente de l’early preview ont commencé
  • Cette étape de préversion est importante, comme pour les modèles précédents, pour obtenir des insights qui permettront d’améliorer les performances et la sécurité

Portée des modèles et technologie

  • La suite Stable Diffusion 3 couvre une plage de 800M à 8B de paramètres
  • Cette approche est en phase avec nos valeurs fondamentales et vise à permettre à chacun d’y accéder, en proposant une gamme d’options variées en termes d’échelle et de qualité qui correspondent au mieux aux besoins créatifs des utilisateurs
  • SD3 combine l’architecture Diffusion Transformer avec le Flow Matching
  • Un rapport technique détaillé sera publié prochainement

Pratiques d’une IA sûre et responsable

  • L’importance de mettre en pratique une IA sûre et responsable est fondamentale
  • Des mesures appropriées sont prises pour prévenir les abus de Stable Diffusion 3, et elles sont maintenues tout au long du cycle, de l’entraînement initial au test, à l’évaluation et au déploiement du modèle
  • De nombreux garde-fous de sécurité ont été mis en place en préparant cette préversion initiale
  • Nous espérons améliorer encore davantage le modèle en collaborant en permanence avec des chercheurs, des experts et la communauté à mesure que l’on se rapproche de son ouverture au public

Engagement et stimulation de la créativité

  • L’engagement de faire de l’IA générative une technologie ouverte, sûre et accessible à tous est ferme
  • Grâce à Stable Diffusion 3, des solutions adaptables seront proposées pour permettre aux particuliers, aux développeurs et aux entreprises d’exprimer leur créativité
  • Si vous souhaitez utiliser commercialement un autre modèle d’image avant le lancement de Stable Diffusion 3, vous pouvez consulter la page d’adhésion de Stability AI ou accéder à l’API via la plateforme développeur

1 commentaires

 
xguru 2024-02-23

Commentaires Hacker News

  • Utilise un nouveau type de diffusion transformer en combinant le flow matching et d'autres améliorations.

    • Grâce à l'amélioration du transformateur, il est possible de passer à plus grande échelle et de prendre en charge des entrées multimodales.
    • La qualité et la sécurité seront améliorées, et la sortie sera lancée avec l'ensemble complet de l'écosystème d'outils.
    • Une nouvelle base utilisant du matériel récent, proposée dans toutes les tailles.
    • Permet la vidéo, la 3D, etc.
    • Nécessite davantage de GPU.
    • Les détails techniques seront publiés prochainement.
    • Si l'on dispose de suffisamment de GPU et de bonnes données, on peut générer des vidéos similaires à Sora.
    • Proposé en tailles allant de 8 millions à 8 milliards de paramètres, utilisable sur tous types de GPU.
  • La focalisation sur la sécurité ressemble à une occasion marketing ratée si l'on considère l'incident récent autour de Gemini.

    • La sécurité semble excessive, au point que la plupart des images sont floues, et des prompts qui fonctionnaient dans les versions précédentes ressortent floues sur SDXL.
    • Si la version suivante est similaire, j'arrêterai d'utiliser l'API Stability.
    • Je suis curieux de voir s'il existe un autre service texte-image offrant une qualité et une valeur similaires à Stable Diffusion sans ce flou excessif.
  • Étant donné le niveau actuel de censure, il sera intéressant de voir ce que signifie ici « sécurité ».

    • J'ai rencontré beaucoup de difficultés à créer des images d'armes pour des assets de jeu avec DALL·E.
  • La moitié du message de lancement est du type « Nous sommes vraiment responsables et sûrs ».

  • Les images de la démo sont toutes de l'« artwork ».

    • Je me demande si le modèle génère bien aussi des photos, des schémas techniques, et d'autres médias graphiques.
  • La partie texte/orthographe est une grande avancée.

  • Ils réécrivent la section « sécurité » en la remplaçant par un couteau imaginaire nommé « Big Knife » au lieu d'un outil d'IA.

    • « Nous croyons en une utilisation sûre et responsable du Big Knife. Cela signifie que nous avons pris des mesures raisonnables pour empêcher le mauvais usage de Big Knife par des acteurs malveillants. »