2 points par GN⁺ 2025-12-03 | 1 commentaires | Partager sur WhatsApp
  • Utilise des normalizing flows pour générer des vidéos directement à partir d’entrées texte, image et vidéo, réalisant le premier générateur vidéo causal
  • Permet un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération (T2V/I2V/V2V) avec un seul modèle
  • L’architecture Global-Local, le Flow-Score Matching et l’itération de Jacobi consciente de la vidéo améliorent la cohérence spatio-temporelle et l’efficacité
  • Modèle de 7B paramètres générant des vidéos en 480p·16fps, entraîné sur 70M paires texte-vidéo et 400M paires texte-image
  • Les normalizing flows obtiennent une qualité équivalente à celle des modèles basés sur la diffusion et prouvent la faisabilité d’une génération vidéo autoregressive de haute qualité

Aperçu de STARFlow-V

  • STARFlow-V est un modèle de génération vidéo causal basé sur les normalizing flows atteignant une qualité visuelle proche de celle des modèles de diffusion
    • Il fournit simultanément un apprentissage de bout en bout, une estimation précise de la vraisemblance et la prise en charge de plusieurs tâches de génération
  • Il démontre la praticabilité des normalizing flows dans la génération vidéo, un champ auparavant dominé par les modèles de diffusion
  • La génération texte-vidéo (T2V), image-vidéo (I2V) et vidéo-vidéo (V2V) est possible via une seule architecture

Conception et structure d’entraînement clés

  • Le modèle se compose d’un Deep Autoregressive Block (raisonnement spatio-temporel global) et d’un Shallow Flow Block (détails locaux par image)
    • Le premier capture les dépendances à long terme dans l’espace latent spatio-temporel
    • Le second modélise la structure détaillée locale de chaque trame
  • Le débruiteur causal léger appris via le Flow-Score Matching améliore la cohérence de la sortie
  • L’objectif d’entraînement adopte une structure à double objectif : estimation de vraisemblance maximale et Flow-Score Matching

Contributions techniques principales

  • Architecture Global-Local
    • Le bloc Transformer causal global traite les dépendances spatio-temporelles à long terme
    • Le bloc de flow peu profond par trame prend en charge la description détaillée locale
    • Il atténue le problème d’accumulation d’erreurs du modèle autoregressif au niveau pixel
  • Dénoyage basé sur le Flow-Score Matching
    • Entraîne en parallèle un débruiteur neuronal causal prédisant le score (le gradient de la distribution de probabilité du modèle)
    • Permet un raffinage en une seule étape sans débruiteur externe non causal ou incomplet
  • Itération de Jacobi consciente de la vidéo
    • Reformule le processus de génération comme une résolution de système non linéaire pour effectuer une mise à jour latente parallèle
    • Accélère la vitesse grâce à l’initialisation basée sur les informations temporelles des trames adjacentes et l’exécution en pipeline

Spécifications du modèle

  • Données d’entraînement : 70M paires texte-vidéo, 400M paires texte-image
  • Taille du modèle : 7B paramètres, résolution de sortie 480p, cadence 16fps
  • Grâce à l’inversibilité des normalizing flows, diverses tâches de génération sont réalisées sans changement d’architecture ni réentraînement

Résultats de génération et comparaison

  • Texte-vidéo : génération de scènes variées en haute qualité, de la lumière naturelle au rendu réaliste, en passant par le macro
  • Image-vidéo : extension vidéo à partir d’une image d’entrée en préservant la cohérence temporelle
  • Vidéo-vidéo : réalisation de transformations variées, notamment ajout d’objets, changement de couleur, modification de style et inpainting
  • Génération longue : production de séquences de 10 à 30 secondes par génération autoregressive segmentée
  • Expériences comparatives : résultats supérieurs en fidélité visuelle et cohérence temporelle face à NOVA et WAN-Causal

Limites et cas d’échec

  • La qualité diminue pour les interactions physiques complexes ou les mouvements rapides
  • Les causes sont identifiées comme une limitation des ressources d’entraînement, une qualité de données insuffisante et l’absence d’un ajustement fin ultérieur (SFT/RL)
  • Exemples : des mouvements peu naturels observés, comme un chien qui secoue de l’eau ou une chèvre qui saute

Apports de la recherche

  • STARFlow-V démontre pour la première fois que les normalizing flows sont adaptés à une génération vidéo autoregressive de haute qualité
  • Il propose une nouvelle voie alternative pour la recherche en génération vidéo historiquement centrée sur la diffusion
  • Il est considéré comme une voie de recherche prometteuse pour la construction d’un world model

1 commentaires

 
GN⁺ 2025-12-03
Commentaire sur Hacker News
  • Apple a aussi un modèle de compréhension vidéo
    En tant que personne malvoyante, l’IA a complètement transformé ma vie. J’ai vraiment hâte de voir comment ce modèle fera progresser les fonctionnalités d’accessibilité

    • On voit rarement ce genre de témoignage dans les gros titres, c’est vraiment un commentaire agréable à lire
    • Il y a quelques années, ils avaient aussi ajouté une fonctionnalité qui détecte les pleurs de bébé et envoie une alerte pour les parents malentendants
    • C’est peut-être un commentaire de faible qualité, mais j’ai sincèrement ressenti de la joie et je tiens à vous féliciter
    • Je serais curieux de savoir plus concrètement comment l’IA a changé votre vie
    • C’est agréable de voir, pour une fois, une bonne nouvelle où l’IA aide réellement les gens
  • La licence d’Apple est limitée à la recherche non commerciale, donc elle ne correspond pas à la définition de l’open source
    Je pense donc qu’il est plus exact de parler de « weights available » que d’« open source »

    • En fait, même les weights ne sont pas encore publiés
      Au regard du droit américain, les poids de modèle ne sont pas une œuvre créative mais une production machine, donc ils ne sont pas protégés par le droit d’auteur
      Du coup, je pense que j’ignorerais ce type de licence dénué de sens et que je les utiliserais librement
  • Le concept de « modèle à poids ouverts » me met un peu mal à l’aise, comme une sorte de « version open source du code machine de Windows »
    La licence d’Apple est au moins de type MIT clickwrap, donc elle accorde tout de même le droit de modifier et redistribuer

    • Bonne analogie. En poussant l’idée plus loin, le « code machine fermé » correspondrait au modèle SaaS classique
      Cela dit, pouvoir utiliser directement le binaire reste mieux que de n’avoir accès qu’à un service SaaS
    • Le fait de pouvoir l’exécuter en local est important
      Les poids ouverts ne sont pas la même chose qu’un simple exécutable, dans la mesure où ils permettent le réentraînement et la distillation
    • Vous semblez probablement confondre la licence du code et celle du modèle
  • J’ai regardé les exemples de texte-vers-vidéo, et honnêtement je n’ai pas été impressionné
    Ça m’a rappelé l’ancienne vidéo de Will Smith mangeant des nouilles. Est-ce que j’ai raté quelque chose ?

    • Ça semble avoir environ deux ans de retard par rapport à l’état de l’art
      Cela dit, le fait de l’avoir publié pour que les chercheurs puissent expérimenter a tout de même de la valeur
    • Si vous revoyez la vidéo de Will Smith avec les spaghettis, vous verrez que ces exemples sont quand même bien meilleurs
      Ce n’est pas parfait, mais parmi les modèles publiquement disponibles, c’est peut-être ce qu’il y a de plus avancé
      En revanche, on peut se demander si la licence est vraiment assez « ouverte »
    • J’ai eu la même impression. Il y avait des éléments étranges, comme un liquide qui continuait à monter dans une tasse alors qu’il avait déjà cessé de couler
  • En tant que recherche, ce projet montre de nouvelles tentatives et de nouvelles possibilités, mais
    du point de vue produit, les contraintes de ressources de calcul sont clairement visibles
    Cela va dans le même sens que les informations selon lesquelles le CFO aurait bloqué la décision du CEO d’investir dans l’infrastructure ML
    Entre le départ de JG, la grande réorganisation de la division IA et les rumeurs de départ de Tim en 2026,
    on a l’impression que le camp non-ML a gagné la bataille politique en interne
    Cela dit, l’approche reste intéressante, donc j’espère que d’autres s’en serviront pour construire quelque chose d’utile

  • D’après l’article, ce modèle est un modèle de recherche visant à résoudre le problème des erreurs cumulatives des modèles vidéo par diffusion
    L’espace latent aurait été conçu avec une structure causale (causal) pour améliorer la cohérence
    Pour un modèle de taille 7B, les résultats sont plutôt bons
    Si Apple sortait un modèle du niveau de wan ou veo, j’imagine qu’il aurait été entraîné sur des données extrêmement soignées

  • STARFlow-V aurait été entraîné sur environ 20 millions de vidéos avec 96 GPU H100
    En revanche, la durée de l’entraînement n’est pas précisée

    • Il est intéressant de voir qu’Apple Intelligence a été entraîné avec des GPU Nvidia et Linux
      Je me demande si les exemples du dépôt peuvent aussi être utilisés pour l’inférence sur Mac
  • Le titre est erroné. Le modèle n’est pas encore publié, et le lien ne dit rien de tel
    Je me demande pourquoi ce titre modifié a été utilisé

  • Le modèle a l’air bon, mais je me demande quels cas d’usage Apple a en tête
    C’est peut-être simplement un sujet qui intéresse les chercheurs, et je ne sais pas si l’orientation de la recherche dans les grands groupes vient d’en haut

    • Apple a des liens forts avec le secteur de la vidéo et de l’animation via Pixar et Disney
      Beaucoup de ces relations remontent à l’époque de Jobs
    • Ce sera probablement utilisé pour ajouter des effets génératifs à des vidéos filmées avec l’iPhone
      TikTok ou Instagram proposeront sans doute bientôt ce genre de fonctionnalité, mais Apple semble vouloir l’offrir en interne
      Personnellement, je pense qu’un rachat de Snapchat serait une bonne stratégie
  • Le dépôt indique : « Pretrained checkpoints will be released soon »
    Autrement dit, ce n’est pas encore un modèle à poids ouverts
    Il ne deviendra un véritable modèle ouvert que lorsque les poids seront effectivement publiés
    Le mot « Soon » ne dit pas quand cela arrivera réellement