VASA-1 : générer en temps réel un visage parlant à partir d’une photo et d’un audio

(microsoft.com)

4 points par GN⁺ 2024-04-20 | 2 commentaires | Partager sur WhatsApp

Microsoft Research a présenté un nouveau projet appelé VASA-1
Une technologie capable de générer une vidéo réaliste d’un visage parlant à partir d’une seule photo d’une personne et d’un flux audio reçu en temps réel
Les lèvres et les expressions du visage bougent naturellement en fonction de la voix, avec un rendu si réaliste qu’il est presque impossible de le distinguer d’une vraie personne en train de parler
Le système utilise un modèle de diffusion qui prend en compte des signaux optionnels comme la direction principale du regard, la distance de la tête et le décalage émotionnel, et présente des résultats selon la direction du regard (face, gauche, droite, haut), l’échelle de distance de la tête et le décalage émotionnel (neutre, joie, colère, surprise)
En mode de traitement batch hors ligne, il génère des frames vidéo en 512x512 à 45 images par seconde
En mode de streaming en ligne, il prend en charge jusqu’à 40 images par seconde avec seulement 170 ms de latence initiale (sur un PC de bureau équipé d’un GPU NVIDIA RTX 4090)

L’avis de GN⁺

Si cette technologie devient réellement exploitable, elle pourrait être utilisée dans de nombreux domaines comme les humains virtuels, les avatars IA ou le métavers. La demande semble particulièrement forte dans l’industrie du divertissement, notamment pour les jeux, le cinéma et l’animation
À l’inverse, des inquiétudes existent aussi quant aux usages malveillants, comme la création de fausses informations ou de vidéos deepfake utilisant le visage de célébrités. Des dispositifs techniques et réglementaires seront nécessaires pour prévenir ces abus
Parmi les technologies similaires, on peut citer Audio2Face de NVIDIA. Celles-ci permettent surtout de générer le visage de personnes spécifiques préalablement entraînées, tandis que VASA-1 se distingue par sa capacité à générer en temps réel de nouveaux visages
Selon l’équipe de développement, VASA-1 n’en est encore qu’à ses débuts, et des améliorations sont prévues pour la qualité d’image et la stabilité. La commercialisation prendra sans doute encore du temps, mais il est probable que nous croisions un jour ce type d’humains artificiels dans notre vie quotidienne

2 commentaires

tomriddle7 2024-04-22

Dans l’épisode 1394 de Ça, je veux savoir, un cas a été présenté où une célébrité a été imitée à partir d’une photo et d’un audio pour soutirer de l’argent, donc il est inquiétant que cela puisse être détourné à ce genre de fins.

GN⁺ 2024-04-20

Avis de Hacker News

Résumé :

Le VASA-1 de Microsoft peut créer un deepfake à partir d’une seule photo et d’une piste audio. La technologie des deepfakes semble devenir de plus en plus rapide, performante, simple et bon marché.
Pendant ce temps, les sociétés de cartes bancaires ont adopté l’authentification vocale, sans réaliser que n’importe qui peut récupérer un court extrait audio sur les réseaux sociaux et cloner une voix. Les entreprises sont en retard sur leur époque.
VASA-1 n’est pas aussi bon qu’EMO. Certains mouvements du corps paraissent factices, et il y a beaucoup de passages où la synchronisation labiale n’est pas correcte. Les mouvements des yeux ainsi que ceux de la tête et du corps dans l’ensemble manquent de naturel.
Le seul objectif de cette technologie semble être de permettre à des espions d’abuser d’autres personnes. Faudra-t-il désormais authentifier tous les appels et toutes les visioconférences ?
Cet article mentionne l’utilisation de Diffusion Transformers. L’implémentation open source est celle de Facebook Research en PyTorch, mais sous licence non commerciale. Je me demande s’il existe un équivalent sous licence MIT ou Apache.
Il nous faut une forme de système de gouvernance garantissant l’authenticité de ce que nous voyons. Mais ce n’est pas simple, par exemple lorsqu’une signature est rompue après une manipulation de photo ou de vidéo.
C’est une technologie absolument folle, et elle va encore s’améliorer. Je pensais que les deepfakes étaient encore loin, mais il semble qu’il faille être plus prudent en ligne.
Une avancée technologique fantastique pour l’ingérence électorale !

VASA-1 : générer en temps réel un visage parlant à partir d’une photo et d’un audio

L’avis de GN⁺

À lire aussi

2 commentaires

Avis de Hacker News