- Microsoft Research a présenté un nouveau projet appelé VASA-1
- Une technologie capable de générer une vidéo réaliste d’un visage parlant à partir d’une seule photo d’une personne et d’un flux audio reçu en temps réel
- Les lèvres et les expressions du visage bougent naturellement en fonction de la voix, avec un rendu si réaliste qu’il est presque impossible de le distinguer d’une vraie personne en train de parler
- Le système utilise un modèle de diffusion qui prend en compte des signaux optionnels comme la direction principale du regard, la distance de la tête et le décalage émotionnel, et présente des résultats selon la direction du regard (face, gauche, droite, haut), l’échelle de distance de la tête et le décalage émotionnel (neutre, joie, colère, surprise)
- En mode de traitement batch hors ligne, il génère des frames vidéo en 512x512 à 45 images par seconde
- En mode de streaming en ligne, il prend en charge jusqu’à 40 images par seconde avec seulement 170 ms de latence initiale (sur un PC de bureau équipé d’un GPU NVIDIA RTX 4090)
L’avis de GN⁺
- Si cette technologie devient réellement exploitable, elle pourrait être utilisée dans de nombreux domaines comme les humains virtuels, les avatars IA ou le métavers. La demande semble particulièrement forte dans l’industrie du divertissement, notamment pour les jeux, le cinéma et l’animation
- À l’inverse, des inquiétudes existent aussi quant aux usages malveillants, comme la création de fausses informations ou de vidéos deepfake utilisant le visage de célébrités. Des dispositifs techniques et réglementaires seront nécessaires pour prévenir ces abus
- Parmi les technologies similaires, on peut citer Audio2Face de NVIDIA. Celles-ci permettent surtout de générer le visage de personnes spécifiques préalablement entraînées, tandis que VASA-1 se distingue par sa capacité à générer en temps réel de nouveaux visages
- Selon l’équipe de développement, VASA-1 n’en est encore qu’à ses débuts, et des améliorations sont prévues pour la qualité d’image et la stabilité. La commercialisation prendra sans doute encore du temps, mais il est probable que nous croisions un jour ce type d’humains artificiels dans notre vie quotidienne
2 commentaires
Dans l’épisode 1394 de Ça, je veux savoir, un cas a été présenté où une célébrité a été imitée à partir d’une photo et d’un audio pour soutirer de l’argent, donc il est inquiétant que cela puisse être détourné à ce genre de fins.
Avis de Hacker News
Résumé :