OpenAI Sora : présentation d’un modèle d’IA qui génère des vidéos à partir de texte

(openai.com)

12 points par GN⁺ 2024-02-16 | 6 commentaires | Partager sur WhatsApp

Sora est un modèle d’IA qui crée des scènes réalistes et imaginatives à partir d’instructions textuelles
Il peut générer des vidéos d’une durée maximale d’une minute tout en restant fidèle au prompt de l’utilisateur et en conservant une qualité visuelle élevée
Présentation d’exemples de vidéos générées à partir de divers prompts fournissant des scénarios détaillés
- Toutes les vidéos de cette page ont été produites directement par Sora, sans aucune modification
Sora est actuellement mis à disposition d’équipes de red team pour l’évaluation des risques, et OpenAI recueille également les retours d’artistes visuels, de designers et de réalisateurs
OpenAI souhaite partager l’avancement de ses recherches afin de recueillir des retours externes et de montrer au public l’avenir des capacités de l’IA

Capacités de Sora

Il peut générer des scènes complexes avec plusieurs personnages, des mouvements spécifiques et des détails précis du sujet et de l’arrière-plan
Il comprend non seulement le prompt de l’utilisateur, mais aussi la manière dont les éléments existent dans le monde physique

Sécurité de Sora

OpenAI prévoit de mettre en place plusieurs mesures de sécurité avant d’intégrer Sora à ses produits
Cela inclut le développement d’outils pour détecter les contenus trompeurs, ainsi que d’un classificateur capable de déterminer si une vidéo a été générée par Sora

Technologie de recherche

Sora est un modèle de diffusion qui génère des vidéos en partant d’une vidéo très bruitée, puis en supprimant progressivement le bruit
Il utilise une architecture Transformer similaire aux modèles GPT, offrant d’excellentes performances de montée en échelle

Avis de GN⁺

Sora est une technologie d’IA innovante qui génère des vidéos à partir d’instructions textuelles et ouvre de nouvelles possibilités aux professionnels de la création
Grâce aux mesures de sécurité et aux retours recueillis, il peut apprendre l’usage dans le monde réel et jouer un rôle important dans l’amélioration progressive de la sûreté des systèmes d’IA
Cette technologie semble constituer une étape importante vers la réalisation future de l’AGI (intelligence artificielle générale)

6 commentaires

draupnir 2024-02-17

On ne peut vraiment qu’être admiratif.
Ils vont réussir à lever 7 billions ?

laeyoung 2024-02-16

À première vue, on ne sait pas vraiment distinguer s’il s’agit d’une vraie vidéo ou d’une vidéo générée par une IA.

edunga1 2024-02-16

Waouh… j’ai hâte de l’essayer.
Un modèle de diffusion, ça veut dire que c’est le même principe que Stable Diffusion, non ?

dothx 2024-02-16

Le marché des photos de stock et des vidéos de stock risque d'avoir la vie dure...

xguru 2024-02-16

La qualité de génération est impressionnante. Les progrès sont-ils vraiment aussi rapides ?

GN⁺ 2024-02-16

Avis Hacker News

Un utilisateur exprime des inquiétudes pour l’avenir malgré la prouesse technique. Il estime que le filet de sécurité sociale est insuffisant et que l’on ne se rapproche pas d’un revenu de base universel (UBI). Il dit aussi craindre qu’une seule entreprise concentre trop de pouvoir.
Un autre utilisateur est profondément impressionné par la qualité des mouvements générés par ordinateur. Il souligne qu’à la différence de la motion capture, il est difficile de reproduire des mouvements réalistes en animation numérique, mais qu’ici le résultat paraît très crédible.
Un autre utilisateur insiste sur l’importance d’un modèle qui, au-delà de l’aspect image/vidéo, montre une compréhension de la physique et des relations entre les objets. Il estime que les exemples cités comme des échecs sont en réalité des cas importants qui démontrent une solide compréhension du monde par le modèle.
Selon The Hollywood Reporter, de nombreuses personnes dans l’industrie craignent pour leur emploi en raison des progrès des outils d’IA. Certaines envisagent de quitter le secteur, et l’on s’attend à ce que les outils d’IA affectent particulièrement l’emploi dans la production publicitaire.
Un utilisateur mentionne des performances bien supérieures à celles des modèles actuellement publics.
Un autre utilisateur relève de petites erreurs dans la vidéo de Tokyo et se demande si ce type d’erreur existera toujours dans les contenus générés, et si des enfants exposés à ces contenus dès leur plus jeune âge finiront par y devenir insensibles.
Un utilisateur estime que le modèle Gemini 1.5 est déjà dépassé et se dit surpris que Google l’ait annoncé via un billet de blog.
Un programmeur exprime un pressentiment inquiétant face aux progrès de l’IA, au-delà de la simple peur de perdre son emploi. Il juge la qualité des vidéos incroyablement impressionnante.
Un utilisateur pose une question technique sur la manière dont les vidéos sont générées et s’interroge sur la façon dont le modèle dissocie la géométrie de la scène et la caméra.
Enfin, un utilisateur pense que les avancées technologiques entraîneront un changement culturel et donneront davantage envie d’aller voir au théâtre des pièces jouées par des humains, des conférences et des concerts. Comme pour le retour en grâce du vinyl, il prédit que les salles de spectacle pourraient redevenir populaires.