1 points par GN⁺ 2024-02-17 | 1 commentaires | Partager sur WhatsApp

Utiliser les modèles de génération vidéo comme simulateurs du monde

  • Exploration de l’entraînement de modèles génératifs sur de grands volumes de données vidéo.
  • Entraînement conjoint de modèles de diffusion conditionnés par le texte sur des vidéos et des images de durées, résolutions et formats d’image variés.
  • Utilisation d’une architecture de type transformer opérant sur des patchs spatio-temporels de codes latents vidéo et image.
  • Sora, le plus grand modèle, peut générer des vidéos de haute qualité d’une minute.

Conversion des données visuelles en patchs

  • Inspiration tirée des grands modèles de langage ayant acquis des capacités générales grâce à l’entraînement sur des données Internet à grande échelle.
  • Application aux modèles génératifs de données visuelles du succès des tokens unifiant différents types de texte.
  • Conversion des vidéos en patchs afin de trouver une représentation efficace pour entraîner des modèles génératifs sur divers types de vidéos et d’images.

Réseau de compression vidéo

  • Entraînement d’un réseau réduisant la dimension des données visuelles.
  • Il prend une vidéo brute en entrée et produit une représentation latente compressée dans le temps et l’espace.
  • Sora est entraîné et génère des vidéos dans cet espace latent compressé.

Patchs latents spatio-temporels

  • Extraction de séquences de patchs spatio-temporels à partir de vidéos d’entrée compressées.
  • Cette représentation fondée sur des patchs permet l’entraînement sur des vidéos et des images de résolutions, durées et formats d’image variés.

Passage à l’échelle de la génération vidéo avec des transformers

  • Sora est un modèle de diffusion entraîné à recevoir des patchs bruités en entrée et à prédire les patchs d’origine « propres ».
  • Les transformers ont montré une excellente capacité de passage à l’échelle dans de nombreux domaines, notamment la modélisation du langage, la vision par ordinateur et la génération d’images.

Durées, résolutions et formats d’image variés

  • Les approches existantes de génération d’images et de vidéos redimensionnent les vidéos à une taille standard.
  • L’entraînement sur les données dans leur taille d’origine présente plusieurs avantages.

Compréhension du langage

  • L’entraînement d’un système de génération texte-vers-vidéo nécessite des vidéos accompagnées de grandes quantités de légendes textuelles.
  • Un modèle de légendage très descriptif est entraîné, puis utilisé pour générer des légendes textuelles pour toutes les vidéos du jeu d’entraînement.

Prompting avec des images et des vidéos

  • Sora peut être sollicité non seulement par du texte, mais aussi par d’autres entrées comme des images ou des vidéos existantes.
  • Cette capacité permet d’effectuer diverses tâches d’édition d’images et de vidéos.

Émergence de capacités de simulation

  • Lors de l’entraînement à grande échelle, certaines capacités de simulation intéressantes apparaissent.
  • Grâce à elles, Sora peut simuler certains aspects des personnes, des animaux et des environnements du monde physique.

Discussion

  • Sora présente plusieurs limites en tant que simulateur.
  • Il ne modélise pas précisément la physique des interactions de base, et d’autres interactions n’entraînent pas toujours les bons changements d’état des objets.

Avis de GN⁺ :

  • Sora représente une étape importante au-delà de la génération de vidéos et d’images, vers la simulation des mondes physique et numérique.
  • Cette technologie a un fort potentiel pour la création de contenus personnalisés, grâce à sa capacité à générer des vidéos dans des résolutions et formats d’image variés.
  • Les capacités de simulation de Sora offrent un éclairage intéressant sur la manière dont l’intelligence artificielle peut comprendre et reproduire le monde physique.

1 commentaires

 
GN⁺ 2024-02-17
Commentaire Hacker News
  • Résumé du premier commentaire :

    • Potentiel de génération de continuité vidéo : cette technologie peut créer une continuité vidéo en appliquant des lois physiques réalistes. Discussion sur les possibilités si elle fonctionne en temps réel.
    • Lien avec la robotique : il serait possible de la connecter à un robot doté d’un flux caméra en direct afin de construire en temps réel un modèle de l’environnement et de prédire le futur.
    • Avenir des robots autonomes : selon le degré de correspondance entre les prédictions et les résultats réels, une correction d’erreurs pourrait les rapprocher d’une forme quasi AGI (intelligence artificielle générale).
    • Exemple de robot domestique : un robot de nettoyage de salon pourrait générer une image du salon après le ménage, imaginer le processus, puis exécuter le nettoyage.
  • Résumé du deuxième commentaire :

    • Possibilité de reconstruction de scènes 3D : ce modèle pourrait reconstruire de manière réaliste des recoins cachés ou des détails d’un espace 3D.
    • Effet de la réduction du nombre de photos : il pourrait créer une scène 3D complète et réaliste à partir de seulement quelques photos, sans nécessiter des centaines ou des milliers d’images.
  • Résumé du troisième commentaire :

    • Importance des cas d’échec : mention de la valeur qu’il y a à montrer aussi des résultats imparfaits.
    • Limites de la génération vidéo : exemples de résultats irréalistes, comme des surfeurs, du verre qui ne se brise pas, ou des personnes qui marchent bizarrement.
  • Résumé du quatrième commentaire :

    • Succès d’AlphaGo et AlphaZero : obtention de performances surhumaines grâce à des simulateurs parfaits.
    • Importance d’un simulateur du monde réel : Sora est une tentative fondée sur le deep learning pour simuler le monde réel.
    • Perspective de capacités surhumaines : si un simulateur suffisamment performant est développé, cela semble possible du point de vue logiciel.
  • Résumé du cinquième commentaire :

    • Progrès de la génération vidéo : la vidéo a une densité d’information plus élevée que l’image, ce qui la rend adaptée à l’entraînement de grands modèles.
    • Niveau de compréhension du modèle : la génération de vidéos de haute qualité montre à quel point le modèle comprend le monde réel, les interactions entre objets, la composition 3D, etc.
  • Résumé du sixième commentaire :

    • Progrès de la génération vidéo : voir une personne dessiner dans une vidéo entièrement générée est une expérience étonnante.
    • Coût et attentes : anticipation d’un coût élevé pour cette technologie et surprise face à la rapidité des progrès.
  • Résumé du septième commentaire :

    • Réaction aux résultats du modèle : l’exemple du robot n’est pas très impressionnant, mais le modèle génère bien les personnes et celles présentes en arrière-plan.
    • Interaction avec les objets : étonnement devant la capacité du modèle à générer des personnes interagissant avec des objets.
  • Résumé du huitième commentaire :

    • Cohérence 3D : capacité du modèle à générer des vidéos cohérentes en 3D même sans connaissance préalable explicite de la 3D.
    • Apprentissage de représentations 3D : possibilité d’apprendre directement des représentations 3D (par ex. NeRF) à partir des vidéos générées.
  • Résumé du neuvième commentaire :

    • Impact sur l’industrie pour adultes : discussion sur l’effet possible de cette technologie sur l’industrie pour adultes, en particulier pour les travailleurs du sexe.
    • Considérations éthiques : possibilité de générer des contenus visualisant certains désirs spécifiques sans souffrance humaine.
  • Résumé du dixième commentaire :

    • Apprentissage des modèles de prédiction vidéo : de la même manière que les modèles de prédiction de texte apprennent le langage et un modèle du monde, les modèles de prédiction vidéo doivent eux aussi apprendre un modèle du monde cohérent.
    • Évolution du modèle : réflexion sur les progrès supplémentaires nécessaires pour atteindre un niveau réellement utile.