Meta dévoile Emu Video/Edit, ses modèles d’IA pour la synthèse et l’édition vidéo

(ai.meta.com)

15 points par xguru 2023-11-21 | 1 commentaires | Partager sur WhatsApp

Emu Video : génération de vidéos de haute qualité à partir de texte avec un modèle de diffusion unique

Processus séparé en deux étapes
- D’abord, génération d’une image conditionnée par le prompt textuel
- Ensuite, génération d’une vidéo conditionnée à la fois par le texte et par l’image générée
Cette approche « factorisée » ou segmentée permet d’entraîner efficacement un modèle de génération vidéo
Contrairement aux travaux précédents qui nécessitaient l’empilement de plusieurs modèles (par exemple, 5 modèles pour Make-A-Video), l’implémentation est plus simple et permet de générer, avec seulement deux modèles de diffusion, des vidéos de 4 secondes en 512x512 à 16 images par seconde
En pratique, 96 % des répondants l’ont préféré à Make-A-Video pour la qualité, et 85 % pour la fidélité au prompt textuel
Le modèle dépasse aussi largement les travaux antérieurs en appliquant une « animation » à une image fournie par l’utilisateur à partir d’un prompt textuel

Emu Edit : édition d’images précise via des tâches de perception et de génération

Pour obtenir l’image souhaitée, il faut souvent ajuster continuellement le prompt, d’où l’émergence du prompt engineering
Mais cela présente encore des limites lorsqu’il s’agit d’un contrôle précis
Emu Edit simplifie diverses tâches de manipulation d’images et apporte des capacités et une précision accrues en édition d’image
Il permet une édition en forme libre via des commandes couvrant l’édition locale et globale, la suppression et l’ajout d’arrière-plan, les transformations de couleur et de géométrie, ainsi que la détection et la segmentation
Les approches actuelles tendent souvent à modifier excessivement l’image ou à offrir de faibles performances sur diverses tâches d’édition
Contrairement à de nombreux modèles d’IA générative actuels, Emu Edit suit précisément les instructions, ce qui permet de conserver intacts les pixels de l’image d’entrée sans rapport avec la consigne
- Par exemple, lors de l’ajout du texte « Aloha! » sur une casquette de baseball, la casquette elle-même ne doit pas être modifiée
Pour entraîner le modèle, Meta a développé un jeu de données contenant 10 millions d’échantillons synthétiques, chacun comprenant une image d’entrée, une description de la tâche à effectuer et l’image cible en sortie
- Le plus grand jeu de données à ce jour
Résultat : le modèle Emu Edit produit des résultats d’édition sans précédent en matière de fidélité aux instructions et de qualité d’image
- Il établit de nouveaux résultats de pointe, tant dans les évaluations qualitatives que quantitatives sur diverses tâches d’édition d’images, et démontre des performances supérieures aux approches existantes

1 commentaires

xguru 2023-11-21

Emu Edit m’intéresse beaucoup. Avec DALL·E, quand on lui donne une consigne de modification, il régénère complètement l’image même si le seed est fixé, ce qui rend les petites retouches difficiles ; si l’édition fonctionne de cette manière, cela devrait être plus pratique à utiliser.

Meta dévoile Emu Video/Edit, ses modèles d’IA pour la synthèse et l’édition vidéo

Emu Video : génération de vidéos de haute qualité à partir de texte avec un modèle de diffusion unique

Emu Edit : édition d’images précise via des tâches de perception et de génération

À lire aussi

1 commentaires