- Utilise des normalizing flows pour générer des vidéos directement à partir d’entrées texte, image et vidéo, réalisant le premier générateur vidéo causal
- Permet un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération (T2V/I2V/V2V) avec un seul modèle
- L’architecture Global-Local, le Flow-Score Matching et l’itération de Jacobi consciente de la vidéo améliorent la cohérence spatio-temporelle et l’efficacité
- Modèle de 7B paramètres générant des vidéos en 480p·16fps, entraîné sur 70M paires texte-vidéo et 400M paires texte-image
- Les normalizing flows obtiennent une qualité équivalente à celle des modèles basés sur la diffusion et prouvent la faisabilité d’une génération vidéo autoregressive de haute qualité
Aperçu de STARFlow-V
- STARFlow-V est un modèle de génération vidéo causal basé sur les normalizing flows atteignant une qualité visuelle proche de celle des modèles de diffusion
- Il fournit simultanément un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération
- Il démontre la praticabilité des normalizing flows dans la génération vidéo, un champ auparavant dominé par les modèles de diffusion
- La génération texte-vidéo (T2V), image-vidéo (I2V) et vidéo-vidéo (V2V) est possible via une seule architecture
Conception et structure d’entraînement clés
- Le modèle se compose d’un Deep Autoregressive Block (raisonnement spatio-temporel global) et d’un Shallow Flow Block (détails locaux par image)
- Le premier capture les dépendances à long terme dans l’espace latent spatio-temporel
- Le second modélise la structure détaillée locale de chaque trame
- Le débruiteur causal léger appris via le Flow-Score Matching améliore la cohérence de la sortie
- L’objectif d’entraînement adopte une structure à double objectif : estimation de vraisemblance maximale et Flow-Score Matching
Contributions techniques principales
- Architecture Global-Local
- Le bloc Transformer causal global traite les dépendances spatio-temporelles à long terme
- Le bloc de flow peu profond par trame prend en charge la description détaillée locale
- Il atténue le problème d’accumulation d’erreurs du modèle autoregressif au niveau pixel
- Dénoyage basé sur le Flow-Score Matching
- Entraîne en parallèle un débruiteur neuronal causal prédisant le score (le gradient de la distribution de probabilité du modèle)
- Permet un raffinage en une seule étape sans débruiteur externe non causal ou incomplet
- Itération de Jacobi consciente de la vidéo
- Reformule le processus de génération comme une résolution de système non linéaire pour effectuer une mise à jour latente parallèle
- Accélère la vitesse grâce à l’initialisation basée sur les informations temporelles des trames adjacentes et l’exécution en pipeline
Spécifications du modèle
- Données d’entraînement : 70M paires texte-vidéo, 400M paires texte-image
- Taille du modèle : 7B paramètres, résolution de sortie 480p, cadence 16fps
- Grâce à l’inversibilité des normalizing flows, diverses tâches de génération sont réalisées sans changement d’architecture ni réentraînement
Résultats de génération et comparaison
- Texte-vidéo : génération de scènes variées en haute qualité, de la lumière naturelle au rendu réaliste, en passant par le macro
- Image-vidéo : extension vidéo à partir d’une image d’entrée en préservant la cohérence temporelle
- Vidéo-vidéo : réalisation de transformations variées, notamment ajout d’objets, changement de couleur, modification de style et inpainting
- Génération longue : production de séquences de 10 à 30 secondes par génération autoregressive segmentée
- Expériences comparatives : résultats supérieurs en fidélité visuelle et cohérence temporelle face à NOVA et WAN-Causal
Limites et cas d’échec
- La qualité diminue pour les interactions physiques complexes ou les mouvements rapides
- Les causes sont identifiées comme une limitation des ressources d’entraînement, une qualité de données insuffisante et l’absence d’un ajustement fin ultérieur (SFT/RL)
- Exemples : des mouvements peu naturels observés, comme un chien qui secoue de l’eau ou une chèvre qui saute
Apports de la recherche
- STARFlow-V démontre pour la première fois que les normalizing flows sont adaptés à une génération vidéo autoregressive de haute qualité
- Il propose une nouvelle voie alternative pour la recherche en génération vidéo historiquement centrée sur la diffusion
- Il est considéré comme une voie de recherche prometteuse pour la construction d’un world model
1 commentaires
Commentaire sur Hacker News
Apple a aussi un modèle de compréhension vidéo
En tant que personne malvoyante, l’IA a complètement transformé ma vie. J’ai vraiment hâte de voir comment ce modèle fera progresser les fonctionnalités d’accessibilité
La licence d’Apple est limitée à la recherche non commerciale, donc elle ne correspond pas à la définition de l’open source
Je pense donc qu’il est plus exact de parler de « weights available » que d’« open source »
Au regard du droit américain, les poids de modèle ne sont pas une œuvre créative mais une production machine, donc ils ne sont pas protégés par le droit d’auteur
Du coup, je pense que j’ignorerais ce type de licence dénué de sens et que je les utiliserais librement
Le concept de « modèle à poids ouverts » me met un peu mal à l’aise, comme une sorte de « version open source du code machine de Windows »
La licence d’Apple est au moins de type MIT clickwrap, donc elle accorde tout de même le droit de modifier et redistribuer
Cela dit, pouvoir utiliser directement le binaire reste mieux que de n’avoir accès qu’à un service SaaS
Les poids ouverts ne sont pas la même chose qu’un simple exécutable, dans la mesure où ils permettent le réentraînement et la distillation
J’ai regardé les exemples de texte-vers-vidéo, et honnêtement je n’ai pas été impressionné
Ça m’a rappelé l’ancienne vidéo de Will Smith mangeant des nouilles. Est-ce que j’ai raté quelque chose ?
Cela dit, le fait de l’avoir publié pour que les chercheurs puissent expérimenter a tout de même de la valeur
Ce n’est pas parfait, mais parmi les modèles publiquement disponibles, c’est peut-être ce qu’il y a de plus avancé
En revanche, on peut se demander si la licence est vraiment assez « ouverte »
En tant que recherche, ce projet montre de nouvelles tentatives et de nouvelles possibilités, mais
du point de vue produit, les contraintes de ressources de calcul sont clairement visibles
Cela va dans le même sens que les informations selon lesquelles le CFO aurait bloqué la décision du CEO d’investir dans l’infrastructure ML
Entre le départ de JG, la grande réorganisation de la division IA et les rumeurs de départ de Tim en 2026,
on a l’impression que le camp non-ML a gagné la bataille politique en interne
Cela dit, l’approche reste intéressante, donc j’espère que d’autres s’en serviront pour construire quelque chose d’utile
D’après l’article, ce modèle est un modèle de recherche visant à résoudre le problème des erreurs cumulatives des modèles vidéo par diffusion
L’espace latent aurait été conçu avec une structure causale (causal) pour améliorer la cohérence
Pour un modèle de taille 7B, les résultats sont plutôt bons
Si Apple sortait un modèle du niveau de wan ou veo, j’imagine qu’il aurait été entraîné sur des données extrêmement soignées
STARFlow-V aurait été entraîné sur environ 20 millions de vidéos avec 96 GPU H100
En revanche, la durée de l’entraînement n’est pas précisée
Je me demande si les exemples du dépôt peuvent aussi être utilisés pour l’inférence sur Mac
Le titre est erroné. Le modèle n’est pas encore publié, et le lien ne dit rien de tel
Je me demande pourquoi ce titre modifié a été utilisé
Le modèle a l’air bon, mais je me demande quels cas d’usage Apple a en tête
C’est peut-être simplement un sujet qui intéresse les chercheurs, et je ne sais pas si l’orientation de la recherche dans les grands groupes vient d’en haut
Beaucoup de ces relations remontent à l’époque de Jobs
TikTok ou Instagram proposeront sans doute bientôt ce genre de fonctionnalité, mais Apple semble vouloir l’offrir en interne
Personnellement, je pense qu’un rachat de Snapchat serait une bonne stratégie
Le dépôt indique : « Pretrained checkpoints will be released soon »
Autrement dit, ce n’est pas encore un modèle à poids ouverts
Il ne deviendra un véritable modèle ouvert que lorsque les poids seront effectivement publiés
Le mot « Soon » ne dit pas quand cela arrivera réellement