Lancement de Stable Video Diffusion

(stability.ai)

14 points par GN⁺ 2023-11-22 | 2 commentaires | Partager sur WhatsApp

Stable Video Diffusion est le premier modèle de vidéo générative basé sur le modèle d’image Stable Diffusion
Proposé en aperçu de recherche, ce tout dernier modèle vidéo d’IA générative constitue une étape importante dans le parcours vers la création de divers types de modèles
Le code est disponible dans le dépôt GitHub, et les poids nécessaires pour exécuter le modèle en local sont accessibles sur la page Hugging Face

Applicable à diverses applications vidéo

Les modèles vidéo peuvent être facilement appliqués à divers travaux downstream, y compris la synthèse multi-vues à partir d’une seule image
À l’image de l’écosystème construit autour de Stable Diffusion, divers modèles destinés à être construits et étendus sur cette base sont prévus
Il est possible de s’inscrire dès aujourd’hui à la waitlist pour une nouvelle expérience web proposant une interface texte-vers-vidéo

Des performances compétitives

Stable Video Diffusion est lancé avec deux modèles image-vers-vidéo capables de générer 14 et 25 images, avec une cadence personnalisable entre 3 et 30 images par seconde
Lors de sa sortie sous sa forme initiale, des évaluations externes ont montré que ces modèles surpassaient des modèles fermés de premier plan dans des études de préférence utilisateur

Réservé à la recherche

Bien qu’ils soient enthousiastes à l’idée de mettre à jour le modèle avec les dernières avancées et d’intégrer les retours, ils soulignent qu’à ce stade il n’est pas destiné à des applications réelles ou commerciales
Les retours et enseignements sur la sécurité et la qualité sont essentiels pour affiner le modèle en vue de sa sortie finale

Expansion continue des modèles d’IA

Stable Video Diffusion est un ajout notable à une large gamme de modèles open source couvrant diverses modalités, dont l’image, le langage, l’audio, la 3D et le code
Un portefeuille qui témoigne de l’engagement de Stability AI en faveur de l’augmentation de l’intelligence humaine.

L’avis de GN⁺

Le point le plus important de cet article est le lancement du modèle Stable Video Diffusion, qui illustre les progrès de la technologie IA et ouvre la voie à des applications dans de nombreux domaines.
En offrant aux chercheurs et aux développeurs un nouvel outil et en rendant possible la génération créative de vidéos, cette technologie laisse entrevoir des usages prometteurs dans la publicité, l’éducation, le divertissement et bien d’autres secteurs.

2 commentaires

xguru 2023-11-22

Le moment Stable Diffusion arrive dans les LLM

Est-ce que ce moment Stable Diffusion va désormais aussi arriver à la vidéo ? En tout cas, il semble bien que, parmi les startups IA étrangères ces temps-ci, c’est bien vers la vidéo que l’argent afflue.

GN⁺ 2023-11-22

Avis Hacker News

En bas de la page vidéo, on voit apparaître deux oiseaux (des geais bleus), avec en arrière-plan deux bâtiments identiques qui ressemblent à la CN Tower. La CN Tower est un monument emblématique de Toronto, et l’équipe de baseball de Toronto s’appelle les Blue Jays. Cette tour se trouve près du principal stade sportif du centre-ville. Je comprends grosso modo comment fonctionne la conversion texte-vers-image, et il me semble logique que « geai bleu » soit proche de « Toronto » ou « CN Tower » dans l’espace vectoriel. Les gains d’échelle et de vitesse pour passer de l’image à la vidéo sont impressionnants, mais quand on voit à quel point les modèles de génération d’images sont capables, cela semble encore limité par l’absence de capacités d’édition ou d’itération. Par exemple, je me demande s’il existe une solution permettant au modèle d’effectuer des itérations avec des prompts comme « déplace le vélo sur la gauche dans la photo ». J’ai l’impression que ce domaine évolue très vite.
Le rythme des progrès en apprentissage automatique l’an dernier a été stupéfiant. Si Controlnet est correctement appliqué à la vidéo, j’ai hâte de voir comment les gens utiliseront cette technologie. Générer de la vidéo à partir de zéro est impressionnant, mais sa véritable utilité réside dans la cohérence temporelle. Pour obtenir une vidéo stable, il faut généralement beaucoup de post-traitement manuel.
Je me demande toujours comment une licence de modèle « non commerciale » peut être appliquée. Les licences logicielles régulent la redistribution du logiciel, mais pas les produits générés avec celui-ci. Par exemple, une image créée avec GIMP n’est pas soumise à la licence GPL.
Ce domaine avance extrêmement vite. De nouveaux articles sortent en un clin d’œil. La vitesse d’apprentissage humaine est remarquable. Il est très intéressant de l’utiliser pour des downstream tasks. Je me demande à quel point il est facile d’intégrer ce modèle avec animatediff. J’aimerais aussi savoir s’il est possible d’effectuer des benchmarks sur des appareils M3, et si cela vaut la peine d’utiliser un M3 Pro pour exécuter ce type d’inférence par diffusion et de développement.
Un bond fascinant sur le plan du progrès technique. Cela fait réfléchir à la différence entre les ancestral samplers et les non-ancestral samplers. Par exemple, la méthode Euler est plutôt déterministe et le résultat ne change pas même si l’on augmente les étapes d’échantillonnage, tandis qu’Euler Ancestral ajoute du bruit à chaque étape pour produire davantage de diversité, mais de manière plus aléatoire/probabiliste. Pour générer de la vidéo, j’imagine que le sampler doit fortement dépendre de l’image précédente tout en injectant une sorte de sous-prompt. Par exemple, « fais pivoter un objet donné de 5 degrés vers la gauche ». J’aime bien l’expression « cohérence temporelle » utilisée par un autre commentateur.
Il semble logique que retirer tous les cuts et fondus des données d’entraînement puisse améliorer les résultats. La section de contexte de l’article de recherche mentionne des « temporal convolution layers » ; quelqu’un pourrait-il expliquer de quoi il s’agit ? Je me demande quel type de données d’entraînement est fourni pour représenter l’état temporel entre les images qui composent la vidéo, ou si cela signifie autre chose.
C’est un développement vraiment très impressionnant. Il y a quelques mois, j’ai essayé quelques modèles de génération de « vidéo » sur Replicate et j’ai obtenu des résultats très intéressants, mais au final les vidéos produites semblaient clairement créées en utilisant l’image précédente comme prompt. Cette technologie donne vraiment l’impression de pouvoir produire quelque chose avec un contexte de plus haut niveau. Il est étonnant de voir un tel niveau de progrès en à peine un peu plus de six mois.
Je demande à Stability.ai de vérifier que son conseil d’administration est raisonnable.
J’ai vraiment hâte d’essayer cette technologie. Voici quelques expériences récentes que j’ai menées.
Comme pour les images statiques, il est très intéressant d’observer des défauts subtils et involontaires. Par exemple, l’homme portant un chapeau de cowboy semble presque s’étouffer, et dans la vidéo du train, les rails paraissent trop écartés pendant que le train glisse comme s’il patinait sur la glace.