SnapFusion - un modèle de diffusion text-to-image générable en 2 secondes sur appareils mobiles

xguru · 2023-06-14T11:17:02+09:00

Obtenu grâce à une architecture réseau efficace et à l’amélioration d’une distillation par étapes Présentation d’un UNet efficace qui identifie les redondances du modèle d’origine et réduit les calculs du décodeur d’images via la distillation des données Dans les expériences sur MS-COCO, le modèle SnapFusion avec seulement 8 étapes de débruitage a obtenu de meilleurs scores FID et CLIP que Stable Diffusion v1.5 avec 50 étapes

(snap-research.github.io)

9 points par xguru 2023-06-14 | 1 commentaires | Partager sur WhatsApp

Obtenu grâce à une architecture réseau efficace et à l’amélioration d’une distillation par étapes
Présentation d’un UNet efficace qui identifie les redondances du modèle d’origine et réduit les calculs du décodeur d’images via la distillation des données
Dans les expériences sur MS-COCO, le modèle SnapFusion avec seulement 8 étapes de débruitage a obtenu de meilleurs scores FID et CLIP que Stable Diffusion v1.5 avec 50 étapes

1 commentaires

xguru 2023-06-14

C’est un article scientifique publié par Snapchat, mais comme le code n’a pas encore été publié... il y a des commentaires qui se disputent en mode « est-ce vraiment possible ? ».
https://news.ycombinator.com/item?id=36304716
Pour l’instant, la vidéo de démonstration tourne bien en mode avion.

SnapFusion - un modèle de diffusion text-to-image générable en 2 secondes sur appareils mobiles

À lire aussi

1 commentaires