2 points par GN⁺ 2025-05-21 | 1 commentaires | Partager sur WhatsApp
  • Google DeepMind a dévoilé Veo 3, Imagen 4 et Flow, élargissant de manière majeure les outils de création vidéo, image et cinéma
  • Veo 3 offre des performances comme la génération vidéo avec audio, la prise en compte de la physique réelle et la synchronisation labiale
  • Imagen 4 facilite la production de visuels grâce à une restitution fine des détails et à une meilleure gestion de la typographie
  • Flow est un nouvel outil de création qui intègre plusieurs modèles pour permettre une création cinématographique en langage naturel
  • Tous les contenus générés incluent un filigrane SynthID, et un outil de détection est également lancé afin de renforcer la transparence

Donnez libre cours à votre créativité avec de nouveaux modèles et outils de médias génératifs

  • Google a annoncé ses derniers modèles de médias génératifs, Veo 3, Imagen 4, ainsi que le nouvel outil de création cinématographique Flow
  • Ces modèles peuvent générer des images, des vidéos et de la musique, et aident les créateurs à concrétiser les univers qu’ils imaginent
  • Google DeepMind a co-conçu ces outils avec des réalisateurs vidéo, musiciens et artistes, tout en mettant l’accent sur un usage responsable de l’IA

Veo 3 : génération vidéo avancée avec audio

  • Veo 3 génère des vidéos d’une qualité supérieure à Veo 2 et, pour la première fois, permet de générer des vidéos intégrant de l’audio, comme des sons d’ambiance et des dialogues
  • À partir de prompts textuels ou visuels, il est possible de produire des vidéos réalistes fondées sur la physique, avec une synchronisation labiale précise
  • Il est disponible aux États-Unis pour les abonnés Ultra via l’application Gemini, Flow et Vertex AI

Veo 2 : des fonctionnalités ajoutées à partir des retours des créateurs

  • Veo 2 s’enrichit des fonctionnalités suivantes, ajoutées sur la base des retours des créateurs :

    • Génération vidéo à partir de références : possibilité d’utiliser des images de personnages, de styles ou d’objets pour générer des vidéos cohérentes
    • Contrôle caméra : possibilité de définir des mouvements comme la rotation, le zoom ou le travelling
    • Outpainting : extension du cadre permettant de passer du format vertical à l’horizontal et d’élargir naturellement une scène
    • Ajout et suppression d’objets : édition naturelle possible en tenant compte jusqu’à la taille, aux ombres et aux interactions des objets
  • Ces fonctionnalités sont disponibles dans Flow et seront déployées progressivement dans l’API Vertex AI

Flow : un outil de création cinématographique par IA optimisé pour Veo

  • Flow intègre Veo, Imagen et Gemini pour permettre de définir en langage naturel des scènes, personnages et styles, puis de les transformer en vidéo
  • Il est proposé aux États-Unis aux abonnés AI Pro et Ultra, avec une extension progressive prévue vers d’autres pays

Imagen 4 : amélioration de la résolution, des détails et de la typographie

  • Imagen 4 offre une restitution fine des textures, la prise en charge de styles photoréalistes et abstraits et une sortie en résolution 2K
  • Les capacités typographiques ont aussi été améliorées, ce qui le rend avantageux pour créer des cartes, affiches et bandes dessinées
  • Il est disponible dans l’application Gemini, Vertex AI, Slides, Docs, Whisk et d’autres services, et une version jusqu’à 10 fois plus rapide sera bientôt lancée

Lyria 2 : génération musicale interactive

  • Ce modèle, inclus dans le Music AI Sandbox pour les musiciens, soutient l’expérimentation créative et permet d’explorer de nouvelles pistes musicales
  • Il est disponible dans YouTube Shorts, Vertex AI, MusicFX DJ, et propose aussi une interaction en temps réel via l’API et AI Studio

Identifier les contenus générés par IA avec SynthID

  • Lancé en 2023, SynthID a intégré des filigranes dans plus de 10 milliards de contenus générés par IA, dont des images, vidéos, audios et textes
  • Le nouveau SynthID Detector permet également aux utilisateurs de déterminer si un contenu a été généré
  • Google poursuit ses efforts en matière de conception responsable des outils et de coopération ouverte, afin que l’IA générative soit utilisée pour aider la création

1 commentaires

 
GN⁺ 2025-05-21
Avis Hacker News
  • Après avoir testé moi-même, j’ai constaté que les performances d’Imagen 4 ne se sont pas énormément améliorées par rapport à Imagen 3, et que la précision des prompts tourne autour de 60 %

    • Je me demande pourquoi, lorsqu’un modèle réussit, on n’essaie qu’une seule fois, alors que pour un modèle en échec on répète plusieurs fois
      Je me demande si ce test évalue « si le modèle peut réussir » ou « s’il réussit souvent »
      Il me semble plus approprié de fixer un taux de réussite ou un seuil de réussite, puis de mesurer avec un nombre fixe de tentatives
    • Dans "The Yarrctic Circle", OpenAI 4o a gagné, mais il ne tient pas de coutelas, l’image est belle mais le point de vue n’a aucun sens, et anatomiquement les jambes sont littéralement 150 % plus longues qu’elles ne devraient l’être
      Je trouve que c’est une ressource intéressante pour comprendre les limites actuelles des modèles
    • Sur le gagnant de "Not the Bees", la main est complètement différente de celle du conducteur, donc j’ai du mal à considérer que cela passe vraiment le test
    • Je me demande comment on vérifie s’ils utilisent réellement Imagen 4 ou Imagen 3
      Gemini n’indique pas quel modèle est utilisé, donc je me demande s’ils passent par Vertex AI
    • Proposition d’exemples plus difficiles pour relever le niveau du test
      • un verre de vin rempli à ras bord
      • des aiguilles d’horloge pointant sur 10 h et 2 h (c’est-à-dire une horloge qui ne forme pas un V)
      • une notice de montage IKEA en 9 étapes pour une étagère
      • toutes sortes de gymnastique ou d’acrobaties, etc.
  • On a désormais l’impression que les outils professionnels prennent nettement de l’avance sur les versions open source
    Même des modèles gratuits comme wan ou hunyuan sont excellents, mais les résultats les plus récents de Google ou Runway semblent un cran au-dessus
    En particulier, les outils d’édition — mouvement, direction, coupes, insertion audio, etc. — constituent un facteur de différenciation encore plus important que la seule capacité de génération
    On sent clairement que les grands groupes ciblent le secteur des agences publicitaires et d’Hollywood
    Je m’attends à ce que ces outils deviennent des standards de l’industrie plus vite qu’on ne le pense
    Il faut encore une ou deux générations de progrès, mais les résultats sont déjà très solides

    • Même si l’open source est moins pratique, je pense que dans un environnement professionnel, le vrai avantage est la possibilité d’ajouter en cours de génération les éléments voulus via des fonctions comme custom lora, control net, etc.
      En génération locale, on peut aussi éviter la modération de contenu parfois excessivement stricte des plateformes
      comfy UI est difficile pour les débutants, mais plutôt que d’utiliser des outils fermés sans réel contrôle, je pense que beaucoup de petites chaînes YouTube et de petites productions continueront à choisir l’open source
    • La vraie confirmation de l’existence du GAI viendra quand la différence de qualité disparaîtra
      À ce moment-là, cela voudra dire qu’on pourra coder n’importe quoi avec n’importe quel niveau de qualité
    • Selon un avis, le véritable objectif du ciblage agency/hollywood est en fait le secteur publicitaire
    • Analyse des progrès de l’équipe Tencent Hunyuan
      Hunyuan Image 2.0 a été annoncé, et sa qualité ainsi que sa vitesse en texte-vers-image / image-vers-image sont très impressionnantes
      Ils ont atteint un niveau où ils ont créé une application de canevas de dessin 2D en temps réel qui reproduit tout ce que Krea proposait
      Dommage que cette fois ce soit du closed source, contrairement à avant
      Hunyuan 3D 2.0 était aussi très bon, mais Hunyuan 3D 2.5 n’a pas encore été publié
      Hunyuan Video ne montre pas de progrès par rapport à Wan, mais Wan attire récemment l’attention grâce à une couche multimodale/d’édition appelée VACE
      Analyse selon laquelle la communauté Comfy produit également d’excellents résultats avec VACE et Wan
  • Si des films indépendants à petit budget peuvent immerger, faire rire et émouvoir le public malgré des lacunes en mise en scène ou en jeu d’acteur, c’est parce qu’ils gardent globalement une cohérence de qualité
    À l’inverse, selon cet avis, les contenus vidéo IA ont beau être très aboutis clip par clip, ils ont encore des limites dès qu’il s’agit de relier plusieurs clips en une œuvre unique tout en maintenant l’immersion
    Des contenus qui maintiennent le « fil rouge » de l’histoire par l’introduction ou le son sont peut-être déjà possibles avec la vidéo IA, mais on n’en est pas encore au point où Hollywood devrait s’inquiéter
    Sont aussi évoqués des éléments comme le grain de la pellicule, ainsi que les raisons pour lesquelles le format 24p reste un choix artistique

    • Recommandation de la chaîne YouTube NeuralViz
      Elle construit un univers cinématographique basé sur la vidéo IA avec 180 000 abonnés, et c’est une émission très amusante
      Selon eux, l’idée que « relier plusieurs clips vidéo IA pour créer de l’immersion relève d’un futur lointain » est déjà démentie par la réalité
    • L’impact de la vidéo IA sur Hollywood serait comparable à celui de la photographie sur la peinture
      La vidéo IA native peut être très différente de la structure classique hollywoodienne en trois actes, mais si les spectateurs s’y déplacent, Hollywood finira lui aussi par suivre cette voie
    • Nous vivons déjà à une époque où il y a plus qu’assez de bons contenus à regarder
      Le vrai problème n’est pas la qualité du contenu mais sa puissance de diffusion et de distribution, et critique selon laquelle Google, en tant que plus grand diffuseur culturel du monde, ignore la vraie souffrance du monde de l’art pour concentrer ses efforts au mauvais endroit
  • Nous en sommes déjà au point où presque tout le monde a probablement vu au moins une vidéo générée par IA en pensant qu’elle était réelle
    Les exemples trop flagrants sont faciles à repérer, mais à force d’exposition, les vidéos IA s’intègrent de plus en plus naturellement dans notre quotidien

  • Google collabore avec le studio IA de Darren Aronofsky, Primordial Soup
    Pendant la grève du SAG-AFTRA, on a discuté à Hollywood d’interdire l’usage de l’IA, alors je me demande pourquoi ce nouveau studio n’est pas concerné

    • C’est parce que Primordial Soup est une entreprise sans lien avec le syndicat et n’est donc pas liée par les accords de grève
      Elle ne peut donc pas employer d’acteurs syndiqués, mais vu la nature de l’entreprise, cela ne semble pas poser un gros problème
  • Le niveau technique de cette production est stupéfiant, et j’ai été particulièrement impressionné par la synchronisation audio-vidéo, ainsi que par la qualité des dialogues, au niveau de modèles vocaux dédiés

  • J’ai ressenti une légère uncanny valley dans la vidéo du hibou et celle du vieil homme, et la vidéo d’origami m’a paru un peu menaçante et agressive

    • On mesure l’énormité des progrès accomplis ces 20 dernières années
      Avant, pour produire ce genre de vidéo dérangeante, il fallait une énorme équipe de développement, des artistes, un cluster de supercalculateurs et de longues heures de rendu ; aujourd’hui, un gros cluster et du temps d’inférence suffisent
    • La version en personnage tricoté plus bas sur la page m’a semblé bien meilleure, ce qui suggère qu’il est plus facile d’éviter l’uncanny valley quand on s’éloigne un peu du réalisme
    • La vidéo du hibou avait ce « brillant » typique des images IA, tandis que celle du vieil homme était très impressionnante
    • Mon impression sur l’origami est que l’audio était plus réaliste que la vidéo, comme si chacun y voyait son propre reflet
  • Grâce à cette technologie impressionnante, j’ai une vraie admiration pour l’équipe de développement
    Mais en même temps, il y a une grande déception
    J’aimerais que l’IA automatise davantage les tâches non créatives, et que les créateurs ne soient pas noyés sous un déluge de contenus IA

    • L’automatisation des tâches non créatives viendra aussi, mais elle est plus difficile et prendra plus de temps car elle exige une précision plus élevée
      La précision de l’IA est encore autour de 80 %, mais combler les 20 % restants est un chemin extrêmement pénible
      Même si l’on arrive vite grâce à un avion rapide (la technologie), le dernier pas (la finition) ressemble à un embouteillage
    • Quand on parle de ça, on voit énormément de gatekeeping, mais certains considèrent positivement le fait que l’IA permette à davantage de gens d’accéder à la création
      Ils attendent avec impatience les nouvelles possibilités créatives que l’IA va ouvrir
    • Un avis dit aussi que les données pour les tâches non créatives sont plus difficiles à collecter sans le consentement d’autrui
    • Autrefois, les œuvres d’art — surtout numériques — ne circulaient pas aussi facilement
      Pour la musique aussi, avant les techniques d’enregistrement, seul le live était authentique
      Selon ce point de vue, l’ère numérique pourrait au contraire être une période étrange dans l’histoire de l’art
    • On dit que « l’IA enterre les créateurs sous des tas de contenus produits par l’IA », mais formuler finement des prompts pour l’IA est aussi un acte créatif
      Et, selon cette vision, passer des dizaines d’heures à construire et rigger un modèle manuellement serait en réalité un travail plus non créatif
  • Je trouve intéressante l’idée selon laquelle les modèles d’IA produisent de la créativité et permettent aux artistes de concrétiser leur vision créative
    Dans cette nouvelle époque, le rôle passerait non plus de « fabriquer » à « faire émerger »
    Cela amène à réfléchir à la nature même de la création : la création basée sur des prompts textuels est-elle vraiment une « vision » ? reste-t-il un chemin artistique sans le « processus » ?
    On assiste à une redéfinition subtile du concept même de création

    • Critique selon laquelle, dans ce processus de redéfinition, 2 ou 3 grandes plateformes vont monopoliser les moyens de production
      Pour elles, c’est une redéfinition extrêmement pratique
    • Pour croire qu’une vision créative peut se condenser dans un seul prompt, il faudrait supposer que l’imagination elle-même a des limites
      L’essence de l’art, le résultat, le processus et les relations entre ces éléments sont des sujets de discussion inépuisables
      Comparaison intéressante avec le fait de confondre les pointeurs d’une structure de données avec les données elles-mêmes
    • Les prompts textuels sont très courts, mais à mesure que le suivi des prompts s’améliore, le changement sera forcément important
      De la même façon qu’un ingénieur logiciel concrétise une vision via du code source, le domaine de la création changera lui aussi, selon cette prévision
    • Certains pensent que les entreprises du LLM cherchent à rendre les gens dépendants de leurs services afin de prélever une marge intermédiaire sur toute activité économique
    • L’opéra, le théâtre et les arts faits main ont connu des processus similaires, et au final les gens se sont progressivement tournés vers ce qui était plus simple et plus facile à consommer
      (musique numérique / TV / art numérique)
      Analyse selon laquelle il ne reste plus qu’une minorité pour considérer les anciennes formes comme de l’art haut de gamme
  • Je me demande si quelqu’un a réellement utilisé Veo3
    Les vidéos de démonstration sont impressionnantes, mais en utilisant Sora j’ai eu une expérience très frustrante en pratique, avec beaucoup de réussite aléatoire et d’échecs