STARFlow-V : modèle de génération vidéo de bout en bout basé sur les normalizing flows

(starflow-v.github.io)

2 points par GN⁺ 2025-12-03 | 1 commentaires | Partager sur WhatsApp

Utilise des normalizing flows pour générer des vidéos directement à partir d’entrées texte, image et vidéo, réalisant le premier générateur vidéo causal
Permet un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération (T2V/I2V/V2V) avec un seul modèle
L’architecture Global-Local, le Flow-Score Matching et l’itération de Jacobi consciente de la vidéo améliorent la cohérence spatio-temporelle et l’efficacité
Modèle de 7B paramètres générant des vidéos en 480p·16fps, entraîné sur 70M paires texte-vidéo et 400M paires texte-image
Les normalizing flows obtiennent une qualité équivalente à celle des modèles basés sur la diffusion et prouvent la faisabilité d’une génération vidéo autoregressive de haute qualité

Aperçu de STARFlow-V

STARFlow-V est un modèle de génération vidéo causal basé sur les normalizing flows atteignant une qualité visuelle proche de celle des modèles de diffusion
- Il fournit simultanément un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération
Il démontre la praticabilité des normalizing flows dans la génération vidéo, un champ auparavant dominé par les modèles de diffusion
La génération texte-vidéo (T2V), image-vidéo (I2V) et vidéo-vidéo (V2V) est possible via une seule architecture

Conception et structure d’entraînement clés

Le modèle se compose d’un Deep Autoregressive Block (raisonnement spatio-temporel global) et d’un Shallow Flow Block (détails locaux par image)
- Le premier capture les dépendances à long terme dans l’espace latent spatio-temporel
- Le second modélise la structure détaillée locale de chaque trame
Le débruiteur causal léger appris via le Flow-Score Matching améliore la cohérence de la sortie
L’objectif d’entraînement adopte une structure à double objectif : estimation de vraisemblance maximale et Flow-Score Matching

Contributions techniques principales

Architecture Global-Local
- Le bloc Transformer causal global traite les dépendances spatio-temporelles à long terme
- Le bloc de flow peu profond par trame prend en charge la description détaillée locale
- Il atténue le problème d’accumulation d’erreurs du modèle autoregressif au niveau pixel
Dénoyage basé sur le Flow-Score Matching
- Entraîne en parallèle un débruiteur neuronal causal prédisant le score (le gradient de la distribution de probabilité du modèle)
- Permet un raffinage en une seule étape sans débruiteur externe non causal ou incomplet
Itération de Jacobi consciente de la vidéo
- Reformule le processus de génération comme une résolution de système non linéaire pour effectuer une mise à jour latente parallèle
- Accélère la vitesse grâce à l’initialisation basée sur les informations temporelles des trames adjacentes et l’exécution en pipeline

Spécifications du modèle

Données d’entraînement : 70M paires texte-vidéo, 400M paires texte-image
Taille du modèle : 7B paramètres, résolution de sortie 480p, cadence 16fps
Grâce à l’inversibilité des normalizing flows, diverses tâches de génération sont réalisées sans changement d’architecture ni réentraînement

Résultats de génération et comparaison

Texte-vidéo : génération de scènes variées en haute qualité, de la lumière naturelle au rendu réaliste, en passant par le macro
Image-vidéo : extension vidéo à partir d’une image d’entrée en préservant la cohérence temporelle
Vidéo-vidéo : réalisation de transformations variées, notamment ajout d’objets, changement de couleur, modification de style et inpainting
Génération longue : production de séquences de 10 à 30 secondes par génération autoregressive segmentée
Expériences comparatives : résultats supérieurs en fidélité visuelle et cohérence temporelle face à NOVA et WAN-Causal

Limites et cas d’échec

La qualité diminue pour les interactions physiques complexes ou les mouvements rapides
Les causes sont identifiées comme une limitation des ressources d’entraînement, une qualité de données insuffisante et l’absence d’un ajustement fin ultérieur (SFT/RL)
Exemples : des mouvements peu naturels observés, comme un chien qui secoue de l’eau ou une chèvre qui saute

Apports de la recherche

STARFlow-V démontre pour la première fois que les normalizing flows sont adaptés à une génération vidéo autoregressive de haute qualité
Il propose une nouvelle voie alternative pour la recherche en génération vidéo historiquement centrée sur la diffusion
Il est considéré comme une voie de recherche prometteuse pour la construction d’un world model

1 commentaires

GN⁺ 2025-12-03

Commentaire sur Hacker News

Apple a aussi un modèle de compréhension vidéo
En tant que personne malvoyante, l’IA a complètement transformé ma vie. J’ai vraiment hâte de voir comment ce modèle fera progresser les fonctionnalités d’accessibilité
- On voit rarement ce genre de témoignage dans les gros titres, c’est vraiment un commentaire agréable à lire
- Il y a quelques années, ils avaient aussi ajouté une fonctionnalité qui détecte les pleurs de bébé et envoie une alerte pour les parents malentendants
- C’est peut-être un commentaire de faible qualité, mais j’ai sincèrement ressenti de la joie et je tiens à vous féliciter
- Je serais curieux de savoir plus concrètement comment l’IA a changé votre vie
- C’est agréable de voir, pour une fois, une bonne nouvelle où l’IA aide réellement les gens
La licence d’Apple est limitée à la recherche non commerciale, donc elle ne correspond pas à la définition de l’open source
Je pense donc qu’il est plus exact de parler de « weights available » que d’« open source »
- En fait, même les weights ne sont pas encore publiés
  Au regard du droit américain, les poids de modèle ne sont pas une œuvre créative mais une production machine, donc ils ne sont pas protégés par le droit d’auteur
  Du coup, je pense que j’ignorerais ce type de licence dénué de sens et que je les utiliserais librement
Le concept de « modèle à poids ouverts » me met un peu mal à l’aise, comme une sorte de « version open source du code machine de Windows »
La licence d’Apple est au moins de type MIT clickwrap, donc elle accorde tout de même le droit de modifier et redistribuer
- Bonne analogie. En poussant l’idée plus loin, le « code machine fermé » correspondrait au modèle SaaS classique
  Cela dit, pouvoir utiliser directement le binaire reste mieux que de n’avoir accès qu’à un service SaaS
- Le fait de pouvoir l’exécuter en local est important
  Les poids ouverts ne sont pas la même chose qu’un simple exécutable, dans la mesure où ils permettent le réentraînement et la distillation
- Vous semblez probablement confondre la licence du code et celle du modèle
J’ai regardé les exemples de texte-vers-vidéo, et honnêtement je n’ai pas été impressionné
Ça m’a rappelé l’ancienne vidéo de Will Smith mangeant des nouilles. Est-ce que j’ai raté quelque chose ?
- Ça semble avoir environ deux ans de retard par rapport à l’état de l’art
  Cela dit, le fait de l’avoir publié pour que les chercheurs puissent expérimenter a tout de même de la valeur
- Si vous revoyez la vidéo de Will Smith avec les spaghettis, vous verrez que ces exemples sont quand même bien meilleurs
  Ce n’est pas parfait, mais parmi les modèles publiquement disponibles, c’est peut-être ce qu’il y a de plus avancé
  En revanche, on peut se demander si la licence est vraiment assez « ouverte »
- J’ai eu la même impression. Il y avait des éléments étranges, comme un liquide qui continuait à monter dans une tasse alors qu’il avait déjà cessé de couler
En tant que recherche, ce projet montre de nouvelles tentatives et de nouvelles possibilités, mais
du point de vue produit, les contraintes de ressources de calcul sont clairement visibles
Cela va dans le même sens que les informations selon lesquelles le CFO aurait bloqué la décision du CEO d’investir dans l’infrastructure ML
Entre le départ de JG, la grande réorganisation de la division IA et les rumeurs de départ de Tim en 2026,
on a l’impression que le camp non-ML a gagné la bataille politique en interne
Cela dit, l’approche reste intéressante, donc j’espère que d’autres s’en serviront pour construire quelque chose d’utile
D’après l’article, ce modèle est un modèle de recherche visant à résoudre le problème des erreurs cumulatives des modèles vidéo par diffusion
L’espace latent aurait été conçu avec une structure causale (causal) pour améliorer la cohérence
Pour un modèle de taille 7B, les résultats sont plutôt bons
Si Apple sortait un modèle du niveau de wan ou veo, j’imagine qu’il aurait été entraîné sur des données extrêmement soignées
STARFlow-V aurait été entraîné sur environ 20 millions de vidéos avec 96 GPU H100
En revanche, la durée de l’entraînement n’est pas précisée
- Il est intéressant de voir qu’Apple Intelligence a été entraîné avec des GPU Nvidia et Linux
  Je me demande si les exemples du dépôt peuvent aussi être utilisés pour l’inférence sur Mac
Le titre est erroné. Le modèle n’est pas encore publié, et le lien ne dit rien de tel
Je me demande pourquoi ce titre modifié a été utilisé
Le modèle a l’air bon, mais je me demande quels cas d’usage Apple a en tête
C’est peut-être simplement un sujet qui intéresse les chercheurs, et je ne sais pas si l’orientation de la recherche dans les grands groupes vient d’en haut
- Apple a des liens forts avec le secteur de la vidéo et de l’animation via Pixar et Disney
  Beaucoup de ces relations remontent à l’époque de Jobs
- Ce sera probablement utilisé pour ajouter des effets génératifs à des vidéos filmées avec l’iPhone
  TikTok ou Instagram proposeront sans doute bientôt ce genre de fonctionnalité, mais Apple semble vouloir l’offrir en interne
  Personnellement, je pense qu’un rachat de Snapchat serait une bonne stratégie
Le dépôt indique : « Pretrained checkpoints will be released soon »
Autrement dit, ce n’est pas encore un modèle à poids ouverts
Il ne deviendra un véritable modèle ouvert que lorsque les poids seront effectivement publiés
Le mot « Soon » ne dit pas quand cela arrivera réellement

STARFlow-V : modèle de génération vidéo de bout en bout basé sur les normalizing flows

Aperçu de STARFlow-V

Conception et structure d’entraînement clés

Contributions techniques principales

Spécifications du modèle

Résultats de génération et comparaison

Limites et cas d’échec

Apports de la recherche

À lire aussi

1 commentaires

Commentaire sur Hacker News