Sortie de Sora 2 : le modèle de nouvelle génération d’OpenAI pour la génération vidéo et audio (Sora 2 is here)
(openai.com)🔑 Points clés
• Simulation physique plus réaliste
• Là où le modèle précédent mettait en scène sa réussite en « téléportant » les objets, Sora 2 reproduit désormais même les échecs physiques réels et les rebonds.
• Il peut par exemple montrer un ballon de basket qui touche l’arceau puis repart, avec un résultat plus proche des lois de la physique.
• Contrôle avancé & cohérence
• Il peut suivre avec précision des consignes complexes (plusieurs plans, transitions de scène, maintien de l’état).
• Il conserve l’état du monde (world state) des personnages et objets d’une scène à l’autre.
• Variété de styles
• Génération possible de vidéos de haute qualité en réalisme, style cinématographique, animation, etc.
• Prise en charge de la génération audio synchronisée, y compris musique de fond, effets sonores et dialogues.
• Fonction « Upload yourself » (Cameos)
• L’utilisateur peut téléverser une courte vidéo et un extrait vocal → le modèle peut ensuite insérer cette personne dans n’importe quelle scène.
• L’apparence et la voix sont toutes deux prises en compte.
• L’utilisateur garde le contrôle, avec possibilité de gérer les accès et de supprimer les données.
• Lancement de l’app sociale « Sora » (iOS)
• Un nouveau réseau social centré sur la création, le remix et le partage.
• Démarrage sur invitation, avec un lancement initial aux États-Unis et au Canada.
• Base gratuite avec une limite d’usage définie, et modèle Pro/générations supplémentaires prévus en payant.
• Sécurité et lancement responsable
• Algorithme du fil : priorité à « l’incitation à créer » plutôt qu’à l’optimisation du temps passé.
• Protection des adolescents : limitation de l’exposition dans le fil et contrôle parental.
• Droits d’auteur/consentement : les utilisateurs de Cameo disposent de droits d’accès et de suppression garantis.
• Renforcement de la modération humaine pour répondre au harcèlement et aux abus.
• Contexte technique
• Si Sora 1 était le « GPT-1 de la vidéo », Sora 2 représente un « moment GPT-3.5 ».
• Pré-entraînement (pre-training) et post-entraînement (post-training) sur un volume plus important de données vidéo → un pas de plus vers un modèle de simulation du monde.
• Feuille de route
• Accès également possible sur sora.com.
• Une version Sora 2 Pro est prévue pour les utilisateurs Pro.
• Une API publique est également planifiée.
• L’actuel Sora 1 Turbo restera aussi disponible.
⸻
📝 TL;DR
• Sora 2 = un modèle de génération vidéo et audio physiquement plus précis
• Insertion possible de cameos de personnes/objets → expérience disponible dans l’app sociale Sora
• Plateforme centrée sur le social + la création → orientée vers la production de contenu plutôt que la consommation de temps
• Lancement initial : iOS aux États-Unis et au Canada → extension prévue au web/Pro/API
2 commentaires
Si ce type de vidéos se multiplie, cela éloignera peut-être les gens de l’addiction aux shorts. Si je peux moi aussi créer avec mon visage des shorts où je roule en supercar, quelle valeur auront encore les shorts de supercars ?
Avis sur Hacker News
OpenAI semble vouloir faire de Sora un réseau social, autrement dit une version IA de TikTok (AITok)
La web app met l’accent sur une structure centrée sur la consommation, avec un fil, des likes/commentaires sur les publications, des profils utilisateur, etc.
La génération vidéo semble être un élément secondaire, les vidéos générées étant très courtes et les réglages très simples (choix portrait/paysage uniquement)
Les vidéos longues ou centrées sur une histoire, les fonctions de montage avancées, etc., ne sont même pas mentionnées ni tentées, et les limitations fonctionnelles sont importantes par rapport à d’autres plateformes comme Google Flow
Des vidéos de test sur la précision physique ont été jointes, mais Veo non plus ne s’en sort pas correctement avec ces prompts
En plus, c’est intéressant de voir circuler à la fois des vidéos assez impressionnantes et des vidéos franchement médiocres
Exemple de physique Sora 1
Exemple de physique Sora 2
Exemple Veo 1
Exemple Veo 2
Personnellement, j’aime les technologies innovantes et l’IA, mais je ne suis pas sûr que « TikTok mais avec de l’IA » soit une initiative socialement souhaitable
Je serais curieux de voir quels effets positifs clairs cela pourrait apporter
À moins d’une amélioration spectaculaire de l’efficacité énergétique de la génération vidéo, ou d’un coût de l’énergie proche de zéro
je pense qu’un service de consommation vidéo massive en temps réel à l’échelle de TikTok a peu de chances d’être rentable sur la durée
À l’heure actuelle, des vidéos réellement mises en ligne par des humains consomment bien moins d’énergie et coûtent bien moins cher
La stratégie d’OpenAI pour faire de Sora un réseau social est en réalité une approche que Midjourney applique déjà aux images
Midjourney Explore - Videos
Beaucoup de gens apprécient le style visuel particulier de Midjourney, dans une structure où le modèle apprend via les notes et les interactions
Et pour la génération d’images, il est aussi plus simple de travailler au niveau de « l’esthétique »
Meta a aussi tenté quelque chose de similaire récemment
Meta annonce Vibes AI Video
Renforcer les fonctions de fil centrées sur la consommation est clairement l’une des directions possibles
Une autre raison, c’est qu’au lieu de voir plusieurs utilisateurs dépenser des ressources devant la même fenêtre de prompt vide pour produire des résultats similaires
il est plus efficace de montrer d’abord de bons exemples, puis d’obtenir plus vite des résultats de qualité grâce aux discussions associées
Chaque fois que je vois ces technologies, je repense à une réplique de Jeff Goldblum dans Jurassic Park
Notre patron nous montre des vidéos IA bâclées faites avec ce genre d’outils en criant « c’est ça, le futur »
mais il ne semble jamais se poser la question fondamentale : « Qui veut vraiment ça, et qui va regarder ça ? »
Le contenu IA a encore des limites qui sautent immédiatement aux yeux
Qui prendrait plaisir à regarder un flux vidéo entièrement généré par IA ? Pour Meta, c’est bien parce que cela permet d’obtenir du contenu à moindre coût que de payer des humains,
mais dans les faits, ce n’est que du "slop" de mauvaise qualité
Les questions de copyright sont traitées de façon beaucoup trop laxiste
Sora est apparemment configuré par défaut pour utiliser la propriété intellectuelle des utilisateurs dans les vidéos IA, et il faut explicitement refuser pour en être exclu
Article lié
En outre, les personnes qui mènent des projets d’une telle portée semblent avoir peu d’expérience de la vraie vie
et paraissent obsédées par la brillance de technologies amusantes sans se soucier de leur impact ni de leurs conséquences
(Vibes de Meta s’inscrit dans la même logique)
L’article indique que ce point a été rédigé par un robot, donc je me demande s’il existe une source plus fiable
Sur Grok, des personnages protégés par copyright sont utilisés librement depuis plus d’un an, sans qu’il y ait encore eu de procès
Cette technologie laisse imaginer un avenir où des licences seraient accordées aux marques
pour créer des vidéos publicitaires bien plus personnalisées
Par exemple, pouvoir voir une vidéo de moi portant un vêtement avant de le commander serait une expérience assez bluffante
Si cela allait jusqu’à la génération en temps réel, on pourrait même imaginer qu’en passant devant les miroirs d’un grand magasin, mon apparence change automatiquement avec différentes tenues
C’est une époque très excitante
Si on en arrive là, on n’aura peut-être même plus besoin d’acheter physiquement des vêtements
Les influenceurs pourraient se contenter de publier sur les réseaux sociaux des vidéos simulées d’eux-mêmes, et faire leur promotion sans jamais se déplacer
Mème tweet lié
On pourrait même générer de fausses vidéos nous montrant en soirée avec des amis sans jamais sortir réellement,
et finalement mettre en scène une vie sociale trépidante sur les réseaux tout en restant chez soi à manger une glace
J’ai l’impression d’avoir déjà vu quelque chose de très proche dans Minority Report
Dans le film, la manière dont le nom de Tom Cruise était directement utilisé dans la pub m’avait marqué
Minority Report - Wiki du film
On appelle déjà cela le « Virtual Try On (VTO) », et c’est déjà largement utilisé pour les images statiques
Il est donc naturel de s’attendre à voir arriver bientôt le VTO vidéo
Au final, l’usage le plus courant de ce type de modèles vidéo se concentrera probablement sur la visualisation personnalisée, par exemple l’essayage virtuel de produits
parce que les gens préfèrent au fond créer une résonance émotionnelle avec d’autres humains plutôt qu’avec l’IA
Sora ou VEO pourraient aussi profondément transformer la production de films et de contenus TV
Le placement de meubles en AR (prévisualiser virtuellement la position de meubles chez soi) était autrefois présenté comme une innovation,
mais dans la pratique, presque personne ne l’utilise
Si la génération d’images de ChatGPT a attiré plus de 100 millions d’utilisateurs dès la première semaine, c’est principalement
parce que les gens adorent créer avec l’IA des images de leurs amis, de leur famille et de leurs animaux de compagnie
Je suppose que la « fonction caméo » vise elle aussi à retrouver cet attrait viral
donc à moins que la PETA ne s’y oppose, cela ne devrait pas poser de problème
Le point le plus intéressant est
que si l’utilisateur inclut dans le prompt un clip vidéo d’une personne ou d’un produit,
l’IA peut générer une vidéo réaliste à partir de ces métadonnées
Techniquement, cela semble être l’effet d’un entraînement préalable sur un dataset très sophistiqué,
et du point de vue utilisateur, cela peut devenir une vraie fonctionnalité commerciale utile
Mais ce type d’innovation fondée sur les données, Google pourra vite le rattraper grâce à YouTube,
et il est fort probable qu’une technologie similaire soit déjà utilisée en interne
Quand j’investis mon argent durement gagné, des images de produits inexistants ou manipulés relèvent presque de l’escroquerie
Je considère que les avis et publicités fondés sur un fantasme plutôt que sur le produit réel posent un vrai problème éthique
Tout cela représente en pratique une nouvelle étape vers un flux infini de contenu IA personnalisé
une structure optimisée pour maximiser la dopamine de chacun
Cela donne l’impression d’un Torment Nexus qui ressemble à une Skinner box (un dispositif qui pousse à répéter un comportement pour le plaisir)
Pour l’instant, ce genre de structure n’est pas soutenable du point de vue énergétique ou des ressources
Parmi les prompts d’exemple, « une bataille d’animation intense entre un garçon brandissant une épée faite de lumière bleue et un esprit maléfique »
est quasiment identique au concept du manga japonais Blue Exorcist
Blue Exorcist (Wiki)
Il y a même un prompt d’exemple disant : « dans le style d’un film d’animation du Studio Ghibli, un garçon et un chiot grimpent une montagne bleue avec un village visible au loin »
Le personnage du dragon donne l’impression d’être presque repris tel quel de How to Train Your Dragon
Je me demande s’il existe des accords avec les ayants droit, ou si l’idée est plutôt de miser sur un procès pour obtenir un effet de publicité médiatique
Sur le plan de l’ingénierie, le résultat est vraiment impressionnant
La qualité vidéo est désormais suffisante pour capter l’attention, et on ressent aussi un effet d’uncanny valley
OpenAI gère très bien l’accoutumance progressive du grand public à ce type de technologie
Cette version a beaucoup de contraintes, mais on a l’impression qu’en une ou deux générations supplémentaires, le seuil technologique pourrait être franchi
Par exemple, sur le marché des LLM, Gemini 2.5 Pro a été un vrai point de bascule ; Sora semble pouvoir connaître bientôt le même tournant
Du point de vue des créateurs, l’idéal serait de pouvoir d’abord constituer un ensemble d’assets (arrière-plans, objets, etc.), puis d’enchaîner naturellement plusieurs scènes
La continuité est devenue étonnamment bonne dans ces vidéos
Mais quelques erreurs sautent encore aux yeux
Je me demande comment ils vont résoudre des problèmes de storyboard plus complexes
La vidéo masque ses problèmes de continuité par un énorme travail de découpage et des changements de caméra très rapides
On voit bien que d’un plan à l’autre, tous les éléments continuent de changer, comme la lentille d’eau, la motoneige, etc.
Au final, seuls les visages paraissent cohérents
Globalement, les problèmes typiques des vidéos IA restent bien présents, et il n’y a presque aucune scène qui tienne plus de 5 secondes dans un environnement unique
Même dans la scène de course de canards, dès que Sam apparaît, l’herbe n’a déjà plus rien à voir
Le fait que même cette démo soit pleine d’erreurs
laisse penser que les résultats des utilisateurs ordinaires seront bien pires
Dans la scène du bâton long utilisé dans l’étang, l’angle du poignet se plie de manière anormale
Dans la démo du bâton dans l’étang, on repère facilement des moments clairement « typiques de l’IA », comme lorsque le bâton en bois se transforme soudainement en forme d’arc