10 points par clumsypupil 2025-10-01 | 2 commentaires | Partager sur WhatsApp

🔑 Points clés
• Simulation physique plus réaliste
• Là où le modèle précédent mettait en scène sa réussite en « téléportant » les objets, Sora 2 reproduit désormais même les échecs physiques réels et les rebonds.
• Il peut par exemple montrer un ballon de basket qui touche l’arceau puis repart, avec un résultat plus proche des lois de la physique.
• Contrôle avancé & cohérence
• Il peut suivre avec précision des consignes complexes (plusieurs plans, transitions de scène, maintien de l’état).
• Il conserve l’état du monde (world state) des personnages et objets d’une scène à l’autre.
• Variété de styles
• Génération possible de vidéos de haute qualité en réalisme, style cinématographique, animation, etc.
• Prise en charge de la génération audio synchronisée, y compris musique de fond, effets sonores et dialogues.
• Fonction « Upload yourself » (Cameos)
• L’utilisateur peut téléverser une courte vidéo et un extrait vocal → le modèle peut ensuite insérer cette personne dans n’importe quelle scène.
• L’apparence et la voix sont toutes deux prises en compte.
• L’utilisateur garde le contrôle, avec possibilité de gérer les accès et de supprimer les données.
• Lancement de l’app sociale « Sora » (iOS)
• Un nouveau réseau social centré sur la création, le remix et le partage.
• Démarrage sur invitation, avec un lancement initial aux États-Unis et au Canada.
• Base gratuite avec une limite d’usage définie, et modèle Pro/générations supplémentaires prévus en payant.
• Sécurité et lancement responsable
• Algorithme du fil : priorité à « l’incitation à créer » plutôt qu’à l’optimisation du temps passé.
• Protection des adolescents : limitation de l’exposition dans le fil et contrôle parental.
• Droits d’auteur/consentement : les utilisateurs de Cameo disposent de droits d’accès et de suppression garantis.
• Renforcement de la modération humaine pour répondre au harcèlement et aux abus.
• Contexte technique
• Si Sora 1 était le « GPT-1 de la vidéo », Sora 2 représente un « moment GPT-3.5 ».
• Pré-entraînement (pre-training) et post-entraînement (post-training) sur un volume plus important de données vidéo → un pas de plus vers un modèle de simulation du monde.
• Feuille de route
• Accès également possible sur sora.com.
• Une version Sora 2 Pro est prévue pour les utilisateurs Pro.
• Une API publique est également planifiée.
• L’actuel Sora 1 Turbo restera aussi disponible.

📝 TL;DR
• Sora 2 = un modèle de génération vidéo et audio physiquement plus précis
• Insertion possible de cameos de personnes/objets → expérience disponible dans l’app sociale Sora
• Plateforme centrée sur le social + la création → orientée vers la production de contenu plutôt que la consommation de temps
• Lancement initial : iOS aux États-Unis et au Canada → extension prévue au web/Pro/API

2 commentaires

 
colus001 2025-10-01

Si ce type de vidéos se multiplie, cela éloignera peut-être les gens de l’addiction aux shorts. Si je peux moi aussi créer avec mon visage des shorts où je roule en supercar, quelle valeur auront encore les shorts de supercars ?

 
GN⁺ 2025-10-01
Avis sur Hacker News
  • OpenAI semble vouloir faire de Sora un réseau social, autrement dit une version IA de TikTok (AITok)
    La web app met l’accent sur une structure centrée sur la consommation, avec un fil, des likes/commentaires sur les publications, des profils utilisateur, etc.
    La génération vidéo semble être un élément secondaire, les vidéos générées étant très courtes et les réglages très simples (choix portrait/paysage uniquement)
    Les vidéos longues ou centrées sur une histoire, les fonctions de montage avancées, etc., ne sont même pas mentionnées ni tentées, et les limitations fonctionnelles sont importantes par rapport à d’autres plateformes comme Google Flow
    Des vidéos de test sur la précision physique ont été jointes, mais Veo non plus ne s’en sort pas correctement avec ces prompts
    En plus, c’est intéressant de voir circuler à la fois des vidéos assez impressionnantes et des vidéos franchement médiocres
    Exemple de physique Sora 1
    Exemple de physique Sora 2
    Exemple Veo 1
    Exemple Veo 2

    • Personnellement, j’aime les technologies innovantes et l’IA, mais je ne suis pas sûr que « TikTok mais avec de l’IA » soit une initiative socialement souhaitable
      Je serais curieux de voir quels effets positifs clairs cela pourrait apporter

    • À moins d’une amélioration spectaculaire de l’efficacité énergétique de la génération vidéo, ou d’un coût de l’énergie proche de zéro
      je pense qu’un service de consommation vidéo massive en temps réel à l’échelle de TikTok a peu de chances d’être rentable sur la durée
      À l’heure actuelle, des vidéos réellement mises en ligne par des humains consomment bien moins d’énergie et coûtent bien moins cher

    • La stratégie d’OpenAI pour faire de Sora un réseau social est en réalité une approche que Midjourney applique déjà aux images
      Midjourney Explore - Videos
      Beaucoup de gens apprécient le style visuel particulier de Midjourney, dans une structure où le modèle apprend via les notes et les interactions
      Et pour la génération d’images, il est aussi plus simple de travailler au niveau de « l’esthétique »

    • Meta a aussi tenté quelque chose de similaire récemment
      Meta annonce Vibes AI Video

    • Renforcer les fonctions de fil centrées sur la consommation est clairement l’une des directions possibles
      Une autre raison, c’est qu’au lieu de voir plusieurs utilisateurs dépenser des ressources devant la même fenêtre de prompt vide pour produire des résultats similaires
      il est plus efficace de montrer d’abord de bons exemples, puis d’obtenir plus vite des résultats de qualité grâce aux discussions associées

  • Chaque fois que je vois ces technologies, je repense à une réplique de Jeff Goldblum dans Jurassic Park
    Notre patron nous montre des vidéos IA bâclées faites avec ce genre d’outils en criant « c’est ça, le futur »
    mais il ne semble jamais se poser la question fondamentale : « Qui veut vraiment ça, et qui va regarder ça ? »
    Le contenu IA a encore des limites qui sautent immédiatement aux yeux

    • L’app Vibes de Meta m’a fait penser la même chose
      Qui prendrait plaisir à regarder un flux vidéo entièrement généré par IA ? Pour Meta, c’est bien parce que cela permet d’obtenir du contenu à moindre coût que de payer des humains,
      mais dans les faits, ce n’est que du "slop" de mauvaise qualité
  • Les questions de copyright sont traitées de façon beaucoup trop laxiste
    Sora est apparemment configuré par défaut pour utiliser la propriété intellectuelle des utilisateurs dans les vidéos IA, et il faut explicitement refuser pour en être exclu
    Article lié
    En outre, les personnes qui mènent des projets d’une telle portée semblent avoir peu d’expérience de la vraie vie
    et paraissent obsédées par la brillance de technologies amusantes sans se soucier de leur impact ni de leurs conséquences
    (Vibes de Meta s’inscrit dans la même logique)

    • L’article indique que ce point a été rédigé par un robot, donc je me demande s’il existe une source plus fiable

    • Sur Grok, des personnages protégés par copyright sont utilisés librement depuis plus d’un an, sans qu’il y ait encore eu de procès

  • Cette technologie laisse imaginer un avenir où des licences seraient accordées aux marques
    pour créer des vidéos publicitaires bien plus personnalisées
    Par exemple, pouvoir voir une vidéo de moi portant un vêtement avant de le commander serait une expérience assez bluffante
    Si cela allait jusqu’à la génération en temps réel, on pourrait même imaginer qu’en passant devant les miroirs d’un grand magasin, mon apparence change automatiquement avec différentes tenues
    C’est une époque très excitante

    • Si on en arrive là, on n’aura peut-être même plus besoin d’acheter physiquement des vêtements
      Les influenceurs pourraient se contenter de publier sur les réseaux sociaux des vidéos simulées d’eux-mêmes, et faire leur promotion sans jamais se déplacer
      Mème tweet lié
      On pourrait même générer de fausses vidéos nous montrant en soirée avec des amis sans jamais sortir réellement,
      et finalement mettre en scène une vie sociale trépidante sur les réseaux tout en restant chez soi à manger une glace

    • J’ai l’impression d’avoir déjà vu quelque chose de très proche dans Minority Report
      Dans le film, la manière dont le nom de Tom Cruise était directement utilisé dans la pub m’avait marqué
      Minority Report - Wiki du film

    • On appelle déjà cela le « Virtual Try On (VTO) », et c’est déjà largement utilisé pour les images statiques
      Il est donc naturel de s’attendre à voir arriver bientôt le VTO vidéo

    • Au final, l’usage le plus courant de ce type de modèles vidéo se concentrera probablement sur la visualisation personnalisée, par exemple l’essayage virtuel de produits
      parce que les gens préfèrent au fond créer une résonance émotionnelle avec d’autres humains plutôt qu’avec l’IA
      Sora ou VEO pourraient aussi profondément transformer la production de films et de contenus TV

    • Le placement de meubles en AR (prévisualiser virtuellement la position de meubles chez soi) était autrefois présenté comme une innovation,
      mais dans la pratique, presque personne ne l’utilise

  • Si la génération d’images de ChatGPT a attiré plus de 100 millions d’utilisateurs dès la première semaine, c’est principalement
    parce que les gens adorent créer avec l’IA des images de leurs amis, de leur famille et de leurs animaux de compagnie
    Je suppose que la « fonction caméo » vise elle aussi à retrouver cet attrait viral

    • Heureusement, les animaux de compagnie n’ont pas besoin de donner un consentement séparé pour être utilisés dans des vidéos IA,
      donc à moins que la PETA ne s’y oppose, cela ne devrait pas poser de problème
  • Le point le plus intéressant est
    que si l’utilisateur inclut dans le prompt un clip vidéo d’une personne ou d’un produit,
    l’IA peut générer une vidéo réaliste à partir de ces métadonnées
    Techniquement, cela semble être l’effet d’un entraînement préalable sur un dataset très sophistiqué,
    et du point de vue utilisateur, cela peut devenir une vraie fonctionnalité commerciale utile
    Mais ce type d’innovation fondée sur les données, Google pourra vite le rattraper grâce à YouTube,
    et il est fort probable qu’une technologie similaire soit déjà utilisée en interne

    • Je n’ai absolument pas envie que de l’IA soit insérée dans les vidéos de produits
      Quand j’investis mon argent durement gagné, des images de produits inexistants ou manipulés relèvent presque de l’escroquerie
      Je considère que les avis et publicités fondés sur un fantasme plutôt que sur le produit réel posent un vrai problème éthique
  • Tout cela représente en pratique une nouvelle étape vers un flux infini de contenu IA personnalisé
    une structure optimisée pour maximiser la dopamine de chacun

    • Cela donne l’impression d’un Torment Nexus qui ressemble à une Skinner box (un dispositif qui pousse à répéter un comportement pour le plaisir)

    • Pour l’instant, ce genre de structure n’est pas soutenable du point de vue énergétique ou des ressources

  • Parmi les prompts d’exemple, « une bataille d’animation intense entre un garçon brandissant une épée faite de lumière bleue et un esprit maléfique »
    est quasiment identique au concept du manga japonais Blue Exorcist
    Blue Exorcist (Wiki)

    • Il y a même un prompt d’exemple disant : « dans le style d’un film d’animation du Studio Ghibli, un garçon et un chiot grimpent une montagne bleue avec un village visible au loin »

    • Le personnage du dragon donne l’impression d’être presque repris tel quel de How to Train Your Dragon
      Je me demande s’il existe des accords avec les ayants droit, ou si l’idée est plutôt de miser sur un procès pour obtenir un effet de publicité médiatique

  • Sur le plan de l’ingénierie, le résultat est vraiment impressionnant
    La qualité vidéo est désormais suffisante pour capter l’attention, et on ressent aussi un effet d’uncanny valley
    OpenAI gère très bien l’accoutumance progressive du grand public à ce type de technologie
    Cette version a beaucoup de contraintes, mais on a l’impression qu’en une ou deux générations supplémentaires, le seuil technologique pourrait être franchi
    Par exemple, sur le marché des LLM, Gemini 2.5 Pro a été un vrai point de bascule ; Sora semble pouvoir connaître bientôt le même tournant
    Du point de vue des créateurs, l’idéal serait de pouvoir d’abord constituer un ensemble d’assets (arrière-plans, objets, etc.), puis d’enchaîner naturellement plusieurs scènes

  • La continuité est devenue étonnamment bonne dans ces vidéos
    Mais quelques erreurs sautent encore aux yeux

    1. 0:23 - Le joueur de polo en manteau rouge porte des gants, mais dans les plans suivants il n’en a plus
    2. 1:05 - Le dragon vole le long d’une falaise, puis dans le gros plan sa direction s’inverse, et les vêtements des personnages changent aussi
    3. 1:45 - Dans la scène de course de canards, le canard ne prend pas correctement le virage et fonce vers le mur
      Je me demande comment ils vont résoudre des problèmes de storyboard plus complexes
    • La vidéo masque ses problèmes de continuité par un énorme travail de découpage et des changements de caméra très rapides
      On voit bien que d’un plan à l’autre, tous les éléments continuent de changer, comme la lentille d’eau, la motoneige, etc.
      Au final, seuls les visages paraissent cohérents
      Globalement, les problèmes typiques des vidéos IA restent bien présents, et il n’y a presque aucune scène qui tienne plus de 5 secondes dans un environnement unique

    • Même dans la scène de course de canards, dès que Sam apparaît, l’herbe n’a déjà plus rien à voir

    • Le fait que même cette démo soit pleine d’erreurs
      laisse penser que les résultats des utilisateurs ordinaires seront bien pires

    • Dans la scène du bâton long utilisé dans l’étang, l’angle du poignet se plie de manière anormale

    • Dans la démo du bâton dans l’étang, on repère facilement des moments clairement « typiques de l’IA », comme lorsque le bâton en bois se transforme soudainement en forme d’arc