Seedance 1.0 - Le modèle de génération vidéo multi-plans de Bytedance

(seed.bytedance.com)

4 points par GN⁺ 2025-06-14 | 1 commentaires | Partager sur WhatsApp

Un modèle de génération vidéo multi-plans basé sur le texte et l’image, offrant des performances plus précises et plus flexibles que les modèles existants en compréhension sémantique et en interprétation des prompts
En plus d’une haute résolution en 1080p, il produit des résultats avec des transitions de scène fluides, des détails riches et une esthétique cinématographique
Une phase de fine-tuning minutieuse et un mécanisme de récompense RLHF spécialisé pour la vidéo améliorent les performances globales
À partir de descriptions textuelles ou d’images, il permet de produire des contenus visuels dynamiques et immersifs répondant aux contraintes demandées
Une architecture efficace et un nouveau paradigme d’apprentissage prennent en charge à la fois la génération multi-plans et les tâches texte-vers-vidéo / image-vers-vidéo

Présentation de Seedance 1.0

Les technologies de génération vidéo progressent rapidement grâce aux récentes avancées majeures des modèles de diffusion
Mais la plupart des modèles existants ont encore du mal à trouver un équilibre entre le respect des instructions (prompts), le naturel des mouvements et la qualité visuelle
Seedance 1.0 est un modèle de génération vidéo qui applique les principales améliorations techniques suivantes
- (i) Une collecte de données multi-source enrichie de captions vidéo précises, permettant un apprentissage complet sur de multiples scénarios
- (ii) Une architecture efficace et un paradigme d’apprentissage capables de prendre en charge simultanément la génération multi-plans ainsi que les tâches texte→vidéo et image→vidéo
- (iii) Un post-traitement optimisé avec soin : fine-tuning supervisé avancé, RLHF spécialisé pour la vidéo et mécanisme de récompense multidimensionnel, améliorant fortement les performances globales
- (iv) Accélération du modèle : amélioration de la vitesse d’inférence par un facteur 10 grâce à une distillation multi-étapes et à des optimisations au niveau système
Il peut générer une vidéo 1080p de 5 secondes en 41,4 secondes sur un GPU NVIDIA-L20
Par rapport aux modèles de génération vidéo les plus récents, il se distingue par sa flexibilité spatio-temporelle, sa stabilité structurelle, son exécution des consignes dans des situations multiples complexes, ainsi que sa cohérence en multi-plans et en storytelling

1 commentaires

GN⁺ 2025-06-14

Avis Hacker News

J’attends avec impatience un futur où ce genre de fonctionnalités paraîtra tellement banal et sans intérêt
- J’imagine un niveau où, juste pour s’amuser sur mon téléphone, je pourrais créer à la volée avec des amis, dans un groupe de discussion, une série d’animation entièrement doublée de 24 épisodes
- C’est fascinant de voir qu’on peut déjà faire une quantité de choses presque incroyable, et qu’assez vite plus personne n’y prêtera attention
- Il est aussi souligné que, même une série de 24 épisodes créée à partir d’un prompt extrêmement simple, n’intéressera finalement personne
  - L’idée est que l’IA n’augmente pas la valeur du contenu, mais en détruit la rareté et finit donc par en effacer le sens
  - Une comparaison est aussi faite avec « Tea. Earl Grey. Hot. », pour évoquer ce côté purement mécanique
- Si la création de contenu devient aussi facile, on peut se demander qui prendra encore le temps de regarder des vidéos pendant longtemps
  - L’hypothèse est qu’au final chacun sera trop occupé à consommer son propre contenu généré
- Moi aussi, j’attends énormément cette technologie
  - Par exemple, j’aimerais vraiment pouvoir créer moi-même quelque chose comme un film Shadowrun
- Le volume de contenu produit chaque mois devrait dépasser le total de tout ce qui a été créé dans l’histoire de l’humanité jusqu’à présent
  - C’est enthousiasmant, car au lieu d’un paysage dominé par Disney, Marvel ou Star Wars, on pourrait profiter d’un média de longue traîne parfaitement aligné sur les centres d’intérêt de chacun
  - Si l’on s’intéresse à l’Égypte et à l’Atlantide, on peut imaginer regarder immédiatement une série steampunk où ces deux civilisations s’affrontent, avec le ton grave de The Wire
  - Des projets qui n’auraient jamais pu être produits auparavant deviendront réalisables
  - De bons créateurs émergeront, et l’on pense qu’une grande diversité d’auteurs pourra désormais se faire remarquer, comme cela s’est produit avec la musique indé, la BD indé ou le jeu indé
  - Le vrai problème sera finalement la découvrabilité
  - Il est souligné qu’au lieu d’un secteur où il fallait se glisser par piston dans 500 places limitées par an, de nombreux talents porteurs de leur propre vision pourront tenter de grands projets
  - Le modèle de créateurs partis de YouTube pour bâtir d’énormes IP, comme VivziePop(wiki Vivienne Medrano) ou PsychicPebbles(wiki Zach Hadel), pourrait devenir la norme du futur
  - On s’attend à une révolution créative non pas 2 à 10 fois meilleure, mais proche d’un facteur 1000
  - Jusqu’ici, je n’aimais pas la plupart des films et séries parce qu’ils ne correspondaient pas à mes goûts, mais j’ai toujours aimé le média en lui-même
  - Maintenant, l’idée d’un monde où je pourrai rencontrer des contenus parfaitement adaptés à mes goûts et à mes centres d’intérêt est extrêmement enthousiasmante
À l’avenir, on s’attend à quelque chose de proche de l’algorithme de TikTok, qui comprendrait instantanément mes goûts au moment même où je regarde et générerait en permanence de nouvelles vidéos
- Le système apprendrait ce qu’aime l’utilisateur à chaque scroll, puis générerait automatiquement davantage de vidéos à lui montrer
- Si suffisamment de contexte est fourni au modèle, le contenu auquel la personne réagit pourrait devenir si captivant qu’il serait impossible de détourner les yeux de l’écran, avec un effet hautement addictif
  - C’est une perspective inquiétante, mais qui semble inévitable à long terme
- Malheureusement, on craint aussi qu’au lieu de simplement suivre les goûts de l’utilisateur, le système cherche à manipuler ces goûts eux-mêmes afin de maximiser l’engagement
- Certains estiment aussi que cette direction technologique n’est pas vraiment en phase avec les raisons pour lesquelles les gens utilisent les réseaux sociaux
  - On cite en exemple le fait que ChatGPT pourrait générer des commentaires à l’infini, et pourtant nous continuons à venir ici, sur Hacker News
- Plus tard, on imagine aussi l’apparition d’un « mode live » capable de générer instantanément des vidéos en temps réel en s’adaptant à la voix de l’utilisateur
  - Cela pourrait aussi arriver sur Netflix
- On se demande aussi si le système apprendra réellement à comprendre qu’on déteste les publicités et à le prendre correctement en compte
Parmi les vidéos d’exemple, certaines scènes sont assez impressionnantes, mais dans d’autres on remarque souvent des mouvements peu naturels
- On a l’impression que les données d’entraînement se sont concentrées sur les aspects les plus exagérés de TikTok, au point que le modèle semble incapable de maintenir un plan plus de 5 secondes
- Il gère clairement bien les scènes difficiles, mais fait paradoxalement beaucoup d’erreurs sur des parties qui paraissent plus simples
  - Sur le piano de l’ouverture ou l’appareil photo du photographe, on peut lire « AI text » ; dans le café, la main du vieil homme traverse son béret ; et sur la plage, la jeune fille qui se retourne pivote la tête comme une chouette
  - Dans la scène du garçon à vélo dans une ville européenne, cela se termine par une présence chiffrée en monocycle, debout sous un arbre sur la place
- ByteDance testait déjà ce modèle en interne depuis plusieurs semaines sur Model Arena sous le nom de « Unicorn »
  - Il obtient déjà un score supérieur à Google Veo 3
  - ArtificialAnalysis : classement Model Arena
Dans 5 ans, on pourrait vivre dans un monde où tout le contenu est généré en temps réel
- Je dirais quelque chose, et cela me répondrait immédiatement avec une vidéo de 5 secondes
- La vidéo ne serait plus un « actif fixe », mais une réponse éphémère, créée sur le moment puis disparue
- Les vidéos cesseraient d’être des fichiers passifs mis en ligne pour devenir la sortie d’un flux de données
- L’interface du futur qui remplacera le swipe pourrait très bien être le prompt vocal
- Ce que fait Seedance relève moins d’une expérimentation sur un nouveau format que d’un test de système de contenu généré à l’exécution
- Côté backend, on compresse la model infra avec comet et on configure le tout pour exécuter les LLM de manière plus rapide et moins coûteuse
- Si cette combinaison devient réelle, il deviendra possible de fournir du contenu généré à grande échelle sans gros batchs ni cache
- Si cela s’installe vraiment, le feed ne sera plus un scroll mais une boucle de rendu
- Tout cela est jugé moins comme un « service média » que comme un système d’hébergement de modèles d’IA à faible latence déguisé en plateforme vidéo
La qualité vidéo est excellente, mais quelqu’un demande où est le son
- Il est mentionné que si VEO3 produit bien l’image, c’est surtout la qualité audio qui crée une vraie différenciation
- Je travaille sur des solutions IA dans une grande entreprise de streaming vidéo
  - Le problème de VEO3 est son manque de cohérence d’un prompt à l’autre
  - Par exemple, même si l’on charge une image de référence d’un personnage, générer séparément « une vieille mariée se penche » et « une vieille mariée ramasse une pièce » produit à chaque fois des personnages qui semblent différents
  - Bien sûr, VEO3 propose une fonction image-to-video, mais elle reste encore très insuffisante pour construire de vraies scènes
  - Cela s’améliorera avec le temps, mais à ce stade j’apprécie personnellement que Seedance se concentre sur la cohérence entre les plans
  - On espère que cela mettra aussi VEO3 sous pression et accélérera l’amélioration de cette fonction
Quelqu’un se demande pourquoi de grands cercles apparaissent dans toutes les vidéos d’exemple
Une question est posée sur l’endroit où l’on peut utiliser Seedance
- Seedance 1.0 doit être intégré à plusieurs plateformes, dont Doubao et Jimeng, à partir de juin 2025
- On a l’impression que cette fonctionnalité finira bientôt directement dans TikTok
  - Il est avancé qu’une immense vague de contenu génératif déferlera alors sur la plateforme TikTok elle-même, et que l’entreprise cherchera à monétiser le fait que tout le monde veut devenir créateur
  - Certains pensent que la politique de la plateforme passera de « vous pouvez publier gratuitement du contenu » à « vous devez passer par une passerelle IA pour publier, et payer les frais correspondants »
Certaines personnes disent ressentir des nausées ou des vertiges face aux vidéos avec beaucoup de mouvement
- Une sensation similaire avait déjà été ressentie lors de la première présentation de Sora, mais elle semble un peu atténuée avec Seedance
- Ce symptôme n’apparaissait pas dans la démo de Veo 3, et la question est posée de savoir si d’autres ressentent la même chose sur les échantillons très dynamiques de Seedance
Certains se demandent si le réalisme des vidéos générées par IA se rapproche désormais du niveau des films d’animation CGI traditionnels
- On suppose qu’un expert pourrait évidemment pointer des défauts évidents dans les résultats actuels
- Mais on espère qu’à l’avenir il sera possible d’ajuster finement certaines portions précises à l’aide de prompts
- On se demande aussi combien de ressources de calcul et d’argent cela représente en pratique, comparé au coût par seconde d’un CGI hollywoodien à gros budget
- De nos jours, même le CGI « classique » visible dans les productions hollywoodiennes non animées est souvent d’une qualité décevante, donc les attentes ne sont pas si élevées
  - Le processus de change management pour modifier et gérer les rendus CGI semble d’ailleurs lui aussi assez passionnant
Personnellement, je trouve que « Old man » n’a pas l’air si vieux que ça, même si c’est peut-être juste parce que c’est moi qui vieillis

Seedance 1.0 - Le modèle de génération vidéo multi-plans de Bytedance

Présentation de Seedance 1.0

À lire aussi

1 commentaires

Avis Hacker News