SnapFusion - un modèle de diffusion text-to-image générable en 2 secondes sur appareils mobiles
(snap-research.github.io)- Obtenu grâce à une architecture réseau efficace et à l’amélioration d’une distillation par étapes
- Présentation d’un UNet efficace qui identifie les redondances du modèle d’origine et réduit les calculs du décodeur d’images via la distillation des données
- Dans les expériences sur MS-COCO, le modèle SnapFusion avec seulement 8 étapes de débruitage a obtenu de meilleurs scores FID et CLIP que Stable Diffusion v1.5 avec 50 étapes
1 commentaires
C’est un article scientifique publié par Snapchat, mais comme le code n’a pas encore été publié... il y a des commentaires qui se disputent en mode « est-ce vraiment possible ? ».
https://news.ycombinator.com/item?id=36304716
Pour l’instant, la vidéo de démonstration tourne bien en mode avion.