Les modèles de génération vidéo comme simulateurs du monde

(openai.com)

1 points par GN⁺ 2024-02-17 | 1 commentaires | Partager sur WhatsApp

Avec Sora, OpenAI explore si les modèles de génération vidéo peuvent aller au-delà de la simple synthèse d’images animées pour devenir une simulation du monde physique et numérique
Le principe central consiste à placer vidéos et images dans un espace latent compressé dans le temps et l’espace, puis à les découper en patchs spatio-temporels appris comme des tokens de Transformer
Sora apprend directement sur des contenus à longueur, résolution et ratio d’image variables, sans découpe à taille fixe, ce qui permet au même modèle de produire du widescreen, de la vidéo verticale et des images haute résolution
OpenAI applique à la vidéo la recaptioning de DALL·E 3 et utilise GPT pour développer des prompts courts en descriptions détaillées, afin d’améliorer la fidélité au texte et la qualité visuelle
Sora montre certaines capacités de cohérence 3D, de persistance des objets et de simulation de mondes numériques comme Minecraft, mais conserve des limites sur les interactions physiques nécessitant un changement d’état, comme le verre qui se brise ou la consommation de nourriture

Problème traité par Sora et périmètre du rapport

OpenAI étudie l’entraînement de modèles génératifs à grande échelle sur des données vidéo
Sora est un modèle de diffusion conditionné par du texte, entraîné conjointement sur des vidéos et des images de longueurs, résolutions et ratios variés
Le plus grand modèle, Sora, peut générer des vidéos haute fidélité jusqu’à une minute
Ce rapport technique se concentre sur deux points
- la manière de transformer des données visuelles variées en une représentation unifiée adaptée à l’entraînement de modèles génératifs à grande échelle
- une évaluation qualitative des capacités et des limites de Sora
Les détails de l’architecture du modèle et de l’implémentation ne sont pas inclus
Les travaux antérieurs sur la génération vidéo ont utilisé différentes approches, notamment les réseaux neuronaux récurrents, les GAN, les Transformer autorégressifs et les modèles de diffusion, mais se sont souvent concentrés sur des catégories de données étroites, des vidéos courtes ou des vidéos à taille fixe
Sora est conçu comme un modèle visuel généraliste capable de générer des vidéos et des images sur une large plage de durées, de ratios d’image et de résolutions

Comment les données visuelles sont unifiées en patchs

De la même façon que les grands modèles de langage unifient code, mathématiques et langage naturel via des tokens textuels, Sora utilise des patchs pour les données visuelles
Les vidéos sont d’abord compressées dans un espace latent de faible dimension, puis décomposées en patchs spatio-temporels
Cette représentation par patchs est extensible et fonctionne efficacement pour l’apprentissage de différents types de vidéos et d’images

Compression vidéo et patchs latents spatio-temporels

Sora n’opère pas directement sur la vidéo d’origine dans l’espace des pixels, mais apprend et génère dans une représentation latente compressée dans le temps et l’espace
Un modèle décodeur distinct remappe ensuite la représentation latente générée vers l’espace des pixels
Les séquences de patchs spatio-temporels extraites de la vidéo d’entrée compressée fonctionnent comme les tokens d’un Transformer
Les images peuvent être vues comme des vidéos à une seule frame et être traitées de la même manière
Lors de l’inférence, des patchs initialisés aléatoirement sont placés sur une grille de la taille souhaitée pour contrôler la taille de la vidéo générée

Extension des Diffusion Transformers à la génération vidéo

Sora est un modèle de diffusion entraîné à prédire les patchs propres d’origine à partir de patchs bruités et d’informations conditionnelles comme un prompt texte
En même temps, Sora est un Diffusion Transformer
Les Transformer ont déjà montré de bonnes propriétés de passage à l’échelle en modélisation du langage, en vision par ordinateur et en génération d’images, et Sora se montre lui aussi efficace lorsqu’il monte en échelle comme modèle vidéo
À seed et entrées identiques, la qualité des échantillons s’améliore nettement à mesure que l’entraînement progresse et que le budget de calcul augmente
- Les exemples comparatifs sont présentés en base compute, 4x compute et 32x compute

Les avantages d’un apprentissage à la taille d’origine

Les approches classiques de génération d’images et de vidéos redimensionnent, recadrent ou tronquent généralement vers des formats standards comme 4 secondes ou 256x256
Sora tire plusieurs avantages d’un apprentissage sur les données à taille d’origine
Flexibilité d’échantillonnage
- Sora peut échantillonner des vidéos widescreen en 1920x1080p, des vidéos verticales en 1080x1920, ainsi que de nombreux formats intermédiaires
- Il devient possible de générer directement du contenu au ratio natif adapté à différents appareils
- Le même modèle peut servir à prototyper rapidement à basse résolution, puis à produire ensuite en pleine résolution
Amélioration du cadrage et de la composition
- L’apprentissage au ratio d’origine améliore la composition et le cadrage
- Un modèle entraîné avec tous les contenus recadrés en carré peut produire des vidéos où le sujet n’apparaît qu’en partie
- Sora génère des vidéos mieux cadrées qu’un modèle fondé sur des crops carrés

Compréhension du langage et traitement des légendes

L’entraînement d’un système texte-vers-vidéo nécessite une grande quantité de vidéos associées à des légendes textuelles correspondantes
OpenAI applique à la vidéo la technique de recaptioning introduite dans DALL·E 3
L’entreprise entraîne d’abord un modèle chargé de produire des légendes très détaillées, puis l’utilise pour générer des légendes textuelles sur l’ensemble des vidéos d’entraînement
Un entraînement sur des descriptions vidéo détaillées améliore la fidélité au texte et la qualité globale des vidéos
Comme dans DALL·E 3, GPT est utilisé pour transformer les prompts utilisateur courts en longues descriptions détaillées ensuite transmises au modèle vidéo
Cette méthode aide Sora à générer des vidéos de haute qualité qui suivent plus précisément le prompt utilisateur

Génération et édition avec images et vidéos en entrée

Sora peut recevoir non seulement du texte, mais aussi des images ou vidéos existantes comme prompt
Cette capacité sert notamment à générer des vidéos parfaitement répétitives, à animer des images fixes ou à prolonger une vidéo vers l’avant ou vers l’arrière dans le temps
Animation d’images DALL·E
- Sora peut générer une vidéo à partir d’une image et d’un prompt
- Les exemples sont composés de générations vidéo à partir d’images DALL·E 2 et DALL·E 3
Extension de vidéos générées
- Sora peut prolonger une vidéo vers l’avant ou vers l’arrière dans le temps
- Trois vidéos prolongées vers la suite temporelle à partir de différents segments d’une même vidéo générée ont des points de départ différents mais convergent vers la même fin
- La même méthode permet d’étendre une vidéo dans les deux sens afin de créer une boucle infinie sans rupture
Édition vidéo-vers-vidéo et raccords
- OpenAI applique à Sora SDEdit, une méthode d’édition d’images et de vidéos fondée sur les modèles de diffusion
- Cette technique permet à Sora de transformer en zero-shot le style et l’environnement d’une vidéo d’entrée
- En interpolant progressivement entre deux vidéos d’entrée, il est possible de créer des transitions fluides même entre des vidéos dont le sujet et la composition de scène sont totalement différents

Capacités de génération d’images

Sora peut aussi générer des images
Les images sont produites en plaçant des patchs de Gaussian noise sur une grille spatiale dont la longueur temporelle est d’une seule frame
La taille des images générées est variable et peut atteindre une résolution maximale de 2048x2048
Les prompts d’exemple incluent un gros plan de personnage en automne, un récif corallien, une illustration numérique d’un jeune tigre sous un pommier, ou encore un village de montagne enneigé sous des aurores boréales

Capacités de simulation apparues avec le passage à l’échelle

Les modèles vidéo entraînés à grande échelle montrent des capacités émergentes de simulation de certains aspects des humains, des animaux et de l’environnement
Ces propriétés sont présentées comme des effets émergents du passage à l’échelle, sans biais inductif explicite sur la 3D ou les objets
Cohérence 3D
- Sora peut générer des vidéos avec des mouvements de caméra dynamiques
- Quand la caméra se déplace ou pivote, les personnes et les éléments de la scène se déplacent de manière cohérente dans l’espace tridimensionnel
Cohérence à long terme et persistance des objets
- Maintenir une cohérence temporelle sur de longs échantillons est un enjeu majeur pour les systèmes de génération vidéo
- Sora parvient parfois, mais pas toujours, à modéliser efficacement des dépendances de court et de long terme
- Il arrive que des personnes, animaux ou objets persistent même lorsqu’ils sont occultés ou sortent du cadre
- Le modèle peut produire plusieurs plans d’un même personnage dans un seul échantillon et conserver son apparence tout au long de la vidéo
Interaction avec le monde
- Sora simule parfois, de façon simple, des actions qui influencent l’état du monde
- Les exemples incluent des coups de pinceau laissés par un peintre sur une toile et qui persistent dans le temps, ou une personne mordant dans un hamburger en laissant une trace de morsure
Simulation de mondes numériques
- Sora peut aussi simuler des processus artificiels comme ceux d’un jeu vidéo
- Dans l’exemple Minecraft, il peut contrôler le joueur avec une politique de base tout en restituant le monde et sa dynamique avec une grande fidélité
- Une simple légende mentionnant “Minecraft” suffit à faire émerger cette capacité en zero-shot

Limites actuelles et conclusion

Sora présente plusieurs limites en tant que simulateur
Il ne modélise pas correctement la physique de nombreuses interactions élémentaires, comme le bris d’une vitre
Il n’est pas toujours exact non plus dans les interactions où l’état d’un objet doit changer correctement, comme lorsqu’une personne mange un aliment
D’autres cas d’échec, notamment la rupture de cohérence sur de longs échantillons ou l’apparition soudaine d’objets, sont présentés sur la page de présentation de Sora
Les capacités actuelles suggèrent que l’extension continue des modèles vidéo pourrait constituer une voie vers le développement de simulateurs compétents du monde physique et numérique, ainsi que des objets, animaux et humains qui l’habitent

1 commentaires

GN⁺ 2024-02-17

Commentaires sur Hacker News

J’ai l’impression qu’on passe à côté de ce que cette technologie rend possible. Si l’on peut créer des séquences vidéo plausibles avec des lois physiques réalistes, et que cela devient suffisamment rapide pour fonctionner en temps réel, cela changerait énormément de choses
En le connectant à un robot doté d’un flux caméra en temps réel, on pourrait lui faire générer en continu plusieurs scènes futures possibles à partir de ce qu’il voit, ce qui en ferait un robot autonome capable de construire un modèle du monde qui l’entoure en temps réel et de prédire l’avenir. Si on y ajoute une correction d’erreur fondée sur le degré de correspondance entre chaque prédiction et le résultat réel, on pourrait vraiment se rapprocher de l’AGI
La sortie pourrait être reliée à la génération de texte ou au contrôle de ses propres mouvements, et on peut aussi imaginer qu’il prédise les conséquences des actions qu’il peut entreprendre, puis choisisse la meilleure. Pour ce genre d’usage, l’image n’a même pas besoin d’être parfaitement photoréaliste, exempte d’erreurs ou en haute résolution. Il vaut la peine de réfléchir au degré de réalisme de notre propre imagination du monde
Par exemple, un robot ménager pourrait regarder une image du salon, générer une image du salon une fois nettoyé, puis imaginer par interpolation une vidéo de lui-même en train de nettoyer la pièce, agir autant que possible en suivant cette vidéo, puis recréer une séquence et agir à nouveau
si nécessaire, cela pourrait être répété plusieurs fois par seconde
- Cela se rapproche d’un agent doté d’un modèle du monde utilisé pour la planification. En pratique, il n’est pas vraiment nécessaire de générer des images réalistes, et le modèle du monde fonctionne dans ses propres représentations abstraites compressées
  Pour ce type de système, V-Jepa vaut le détour : https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-jo...
- En théorie, c’est vrai, mais le problème, c’est que nous avons déjà eu l’AGI en théorie plusieurs fois. Par exemple, le Q-learning consiste à injecter l’état d’un jeu ou d’un système dans un réseau de neurones, lui faire prédire les récompenses futures possibles, puis améliorer itérativement la précision de cette prédiction, avec l’idée qu’on finit alors par atteindre l’action optimale dans n’importe quel système
  Quand on fait des expériences d’apprentissage par renforcement, l’idée que « si on l’allume, ça va marcher tout seul et trouver plein de solutions géniales » est toujours séduisante, mais en pratique, même si cela peut arriver, ce n’est généralement pas le cas. On voit des signes d’apprentissage, mais souvent sans résultats extraordinaires
  Si je continue à surveiller l’apparition d’IA performantes dans un jeu vidéo comme Civilization, c’est parce que je veux voir si elles peuvent résoudre les problèmes d’un système complexe tout en restant suffisamment réalistes pour que les créateurs du jeu puissent les implémenter de manière pratique. Une équipe d’experts pourrait sans doute résoudre Civilization comme projet de recherche, mais ce serait loin d’être pratique. Avant même qu’une IA dans le jeu puisse prédire le meilleur coup, je me demande déjà si un modèle vidéo pourrait y parvenir simplement en regardant des vidéos de parties de Civilization jouées par des humains
- Ce qui est intéressant, c’est qu’il existe désormais tellement de données vidéo qu’on a maintenant des modèles capables de projeter l’avenir dans l’espace de pixels 2D
  L’objectif final de la robotique est en réalité de projeter l’avenir dans l’espace du monde 3D, et selon la complexité du modèle 3D du monde, un modèle de projection 3D opérationnel pourrait même être bien plus petit
  Simplement, les données correspondantes n’existent pas aussi facilement sur Internet
- Comme le dit une autre réponse, cela rejoint l’idée d’IA orientée vers un objectif que Yann LeCun a présentée dans [1]. L’article n’emploie pas ce nom, mais LeCun l’a utilisé dans ses présentations et ses slides, tout en affirmant qu’un tel résultat ne serait pas atteint par les modèles génératifs
  Quand on reste longtemps dans le domaine de l’IA, on voit passer plusieurs percées censées mener à l’AGI, de DeepBlue aux réseaux neuronaux convolutionnels, puis à l’apprentissage par renforcement profond, jusqu’aux grands modèles de langage actuels. À chaque fois, soit ce n’était pas la percée que les gens imaginaient, soit cela signifie qu’il faut bien plus qu’une seule percée d’ingénierie pour atteindre l’AGI
  Si vous pensez que cette idée est réalisable, vous pouvez simplement l’essayer vous-même dans un environnement simple. Il suffit de créer une petite grille ou une version simplifiée d’un jeu textuel comme Nethack [2], de l’implémenter en vase clos et de voir dans quelle mesure cela fonctionne. On pourrait même en faire un article
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
  [2] Mieux vaut ne pas commencer par Nethack lui-même. C’est trop difficile pour une « IA »
- Des systèmes comme Sora sont clairement nécessaires, mais à eux seuls ils ne suffisent pas. Combinés à un modèle multimodal capable de raisonner correctement, ils pourraient nous rapprocher de l’AGI, ou plus précisément de l’ASI
  En raison d’avantages comme une longueur de contexte supérieure à celle des humains, des modalités sensorielles supplémentaires comme l’infrarouge ou l’électrosensation, une expertise bien plus large, et une bande passante immense
  Le futur successeur probable de Sora + le successeur probable de GPT-4 = ASI, à mon avis
  Un autre commentaire que j’ai écrit à ce sujet : https://news.ycombinator.com/item?id=39391971
J’apprécie que cette page ne montre pas seulement les meilleurs résultats, mais aussi quelques cas d’échec
Par exemple, le surfeur finit par surfer dans les airs : https://cdn.openai.com/tmp/s/prompting_7.mp4
Il y a aussi une scène où un verre censé se briser ne se casse pas, et où seul un liquide s’écoule d’une manière étrange : https://cdn.openai.com/tmp/s/discussion_0.mp4
La façon dont cette personne marche est également bizarre : https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-a...
Et je ne comprends même pas d’où sort cette carte : https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls...
- Même dans certaines vidéos phares, on voit des erreurs de perspective et de parallaxe. Le sujet humain paraît trop grand par rapport aux personnes à l’arrière-plan, ou semble debout sur un plan horizontal incohérent. C’est presque un peu étourdissant, mais malgré cela c’est très impressionnant
- Dans la scène avec la carte, vers 6 secondes, une troisième main écarte la carte
- Dans la scène sur « la façon dont cette personne marche », il est aussi étrange de voir un parapluie sortir du bas du dos
Le passage disant que « des interactions comme manger de la nourriture ne produisent pas toujours les bons changements d’état des objets » explique peut-être pourquoi ils n’ont pas montré Will Smith en train de manger des spaghettis
La phrase selon laquelle « l’extension des modèles vidéo constitue une voie prometteuse vers le développement de simulateurs très performants du monde physique et du monde numérique » est intéressante pour la robotique, mais l’usage plus proche pourrait être le comblement des trous dans des scènes en Gaussian splatting
Pour créer une visite 3D d’un espace, il faut des centaines voire des milliers de photos couvrant sans rupture tous les angles possibles, et malgré cela il reste encore des zones manquantes. Un modèle de ce niveau pourrait vraisemblablement reconstituer les coins cachés, les détails en gros plan, et les parties qui resteraient sous forme de trous ou de flou dans une reconstruction standard
Avec seulement 5 à 10 photos d’un lieu, on pourrait peut-être obtenir une scène 3D fluide et réaliste, explorable sous n’importe quel angle. Il deviendrait aussi possible de retirer des personnes ou des objets indésirables d’une scène. Ces reconstructions extrapolées ne correspondraient sans doute pas parfaitement à la réalité dans tous les détails, mais elles rendraient tout de même possibles de nombreuses applications
- Il serait plus juste d’appeler cela une vue d’artiste qu’une « reconstruction ». C’est très bien quand les détails exacts n’ont pas d’importance, mais si les détails n’importent pas, un rendu flou peut aussi suffire
Si AlphaGo et AlphaZero ont atteint des performances surhumaines, c’est parce qu’ils disposaient d’un simulateur parfait du jeu de go. Un tel simulateur n’existe pas pour le monde réel dans lequel nous vivons. Les grands modèles de langage purs apprennent dans une certaine mesure une représentation grossière et abstraite du monde perçu par l’humain, mais Sora est une tentative de construire un tel simulateur avec le deep learning
La phrase clé est : « Nos résultats suggèrent que l’extension des modèles de génération vidéo constitue une voie prometteuse vers la création de simulateurs généralistes du monde physique »
Si un tel simulateur devient suffisamment bon, on pourrait obtenir, du côté logiciel, des capacités robotiques généralistes et surhumaines. Il n’est pas encore certain que cette approche permette réellement d’y parvenir
Pourquoi surhumaines ? Parce qu’une longueur de contexte supérieure à celle de notre mémoire de travail est un avantage évident, et que la capacité à simuler plus finement des modalités sensorielles alternatives ou des détails peu familiers à la plupart des humains pourrait aussi être un atout
- Ce qui est vraiment fascinant, c’est que cela va à l’encontre de mon intuition. Je pensais qu’il serait bien plus facile d’analyser les flux de caméras du monde réel, de transformer ce qui est vu en une représentation polygonale façon jeu vidéo, puis de laisser l’IA prendre ses décisions sur cette géométrie
  Pourtant, l’évolution de l’IA semble sauter cette étape intermédiaire pour opérer directement à partir des données de pixels. L’idée est d’espérer qu’une compréhension de la géométrie 3D, de la perspective et de la physique émerge naturellement des données d’apprentissage
- Il existe déjà un simulateur parfait du monde réel. Il suffit de l’enregistrer avec une caméra. Dès que les chercheurs auront un peu de temps pour s’orienter et trouver comment apprendre avec un facteur d’accélération supplémentaire de l’ordre d’un chiffre, ils y parviendront
Il me semble que Ylecun a dit à plusieurs reprises que la vidéo était meilleure pour entraîner de grands modèles, parce qu’elle a une densité d’information plus élevée
Les résultats sont vraiment impressionnants. Le fait de pouvoir générer des vidéos de cette qualité, et d’étendre le passé et le futur d’une vidéo, montre à quel point le modèle « comprend » le monde réel, les interactions entre objets, la composition 3D, etc.
La génération d’images exige déjà de connaître beaucoup de choses sur le monde, mais la génération vidéo me paraît représenter un saut bien plus grand, car le modèle doit connaître la 3D, le mouvement des objets et les interactions
Le fait que la scène où quelqu’un peint soit entièrement générée donne une impression complètement folle
J’aimerais vraiment l’essayer, mais je n’ose même pas imaginer combien cela doit coûter. Ils peuvent entraîner à pleine résolution et générer des vidéos allant jusqu’à une minute
Comme la génération vidéo était tellement mauvaise jusque-là, je pensais qu’il faudrait encore quelques années pour atteindre ce niveau, mais cela ressemble une fois de plus à un cas de il suffit d’ajouter plus de données et de calcul. On dirait que le Transformer prouve encore une fois qu’il peut tout apprendre et bien le faire
Le billet principal suscite déjà beaucoup de réactions, mais cette page est vraiment écrasante. Les résultats sont saisissants
Les exemples robotiques sont assez décevants, mais les humains et les personnages d’arrière-plan sont dans l’ensemble très bien réalisés, bien au-delà de la plupart des modèles de diffusion d’images statiques. Le fait qu’un personnage reste cohérent tout en interagissant avec des objets est aussi quelque chose que je n’aurais pas imaginé voir réussir aussi vite avec ce type de modèle
Il est étonnant que ce modèle génère des vidéos avec une telle cohérence 3D même sans connaissances préalables explicites en 3D. Au point qu’on pourrait apprendre directement à partir de cette vidéo une représentation 3D proche de NeRF : https://twitter.com/BenMildenhall/status/1758224827788468722
- Il était tout aussi impressionnant de voir une variante de Stable Diffusion produire une carte d’environnement sphérique HDR à partir d’une image existante : https://diffusionlight.github.io/
  Ce qui est encore plus surprenant, c’est qu’on demande au modèle d’inpaint une sphère chromée au centre de l’image afin qu’il crée, via les reflets, ce qui se trouve derrière la caméra. Le modèle interprète le contexte et imagine ce qui pourrait plausiblement exister dans l’environnement global.
- En regardant de près, ce n’est pas vraiment le cas. Les exemples comportent énormément d’incohérences. Quand la caméra tourne, la perspective est complètement erronée, la perspective des fenêtres change, le patio devient soudainement plus profond ou plus plat. Des ombres apparaissent puis disparaissent quand la caméra bouge.
  Dans d’autres exemples, des routes, des objets et des personnes apparaissent ou disparaissent soudainement, des pierres se transforment en personnes, et un cheval se retrouve brusquement avec une deuxième tête avant de devenir un autre cheval séparé n’ayant que deux pattes.
  À première vue, c’est impressionnant, mais dès qu’on regarde attentivement, cela ressemble davantage à un rêve qu’à quelque chose de réaliste. C’est une suite d’images évoquées à partir d’images, sans cohérence temporelle, spatiale ou causale sur le long terme. Difficile de dire que c’est nettement plus impressionnant que Google DeepDream, qui a déjà 10 ans.
- Je me demande quelle variante du modèle pourrait être amenée à produire directement un maillage 3D et une animation de caméra au lieu d’images.
- C’est pareil avec les modèles de diffusion 2D[1]. Il semble qu’il faille comprendre le fonctionnement de la 3D à cause de l’éclairage, des ombres, de l’occlusion des objets, etc.
  [1] https://dreamfusion3d.github.io/
- Je me demande à quel point ce serait meilleur avec un entraînement sur des données d’images stéréo.
C’est une idée intéressante. De la même façon qu’un grand modèle de langage n’est qu’un simple « prédicteur de texte », mais doit apprendre un modèle du langage et du monde pour prédire correctement un texte cohérent, il est naturel qu’un prédicteur vidéo doive lui aussi apprendre un modèle du monde qui tienne debout.
Je me demande de combien d’ordres de grandeur supplémentaires ils devront encore progresser pour devenir utiles d’une manière comparable.
Si l’on autorise ce genre de capacités, cela pourrait probablement, avec des modèles premium ou supérieurs, faire s’effondrer bientôt toute l’industrie du porno. Pas tant les sites web que les travailleurs et travailleuses du sexe, souvent exploités.
Il suffirait que chacun décrive ses préférences pour visualiser immédiatement ce type de vidéos, sans qu’aucun être humain réel n’ait à souffrir pour les produire. Je sais qu’il s’agit d’un sujet sensible dont on parle difficilement, surtout aux États-Unis, mais le marché est énorme et, si c’est bien fait, cela pourrait aussi bénéficier à l’humanité.
- Pour chaque acteur ou actrice porno, il y a des milliers de consommateurs de porno dont le circuit de récompense est déréglé, et parmi les acteurs, seule une partie est maltraitée tandis que beaucoup sont plutôt bien rémunérés.
  Produire des stimulations addictives à l’infini est à peu près l’opposé de ce qui peut être bénéfique à l’humanité.
  Si l’on veut faire quelque chose de positif dans ce domaine, mieux vaudrait chercher des moyens de limiter la consommation.

Les modèles de génération vidéo comme simulateurs du monde

Problème traité par Sora et périmètre du rapport

Comment les données visuelles sont unifiées en patchs

Compression vidéo et patchs latents spatio-temporels

Extension des Diffusion Transformers à la génération vidéo

Les avantages d’un apprentissage à la taille d’origine

Flexibilité d’échantillonnage

Amélioration du cadrage et de la composition

Compréhension du langage et traitement des légendes

Génération et édition avec images et vidéos en entrée

Animation d’images DALL·E

Extension de vidéos générées

Édition vidéo-vers-vidéo et raccords

Capacités de génération d’images

Capacités de simulation apparues avec le passage à l’échelle

Cohérence 3D

Cohérence à long terme et persistance des objets

Interaction avec le monde

Simulation de mondes numériques

Limites actuelles et conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News