Emu Video : génération de vidéos de haute qualité à partir de texte avec un modèle de diffusion unique
- Processus séparé en deux étapes
- D’abord, génération d’une image conditionnée par le prompt textuel
- Ensuite, génération d’une vidéo conditionnée à la fois par le texte et par l’image générée
- Cette approche « factorisée » ou segmentée permet d’entraîner efficacement un modèle de génération vidéo
- Contrairement aux travaux précédents qui nécessitaient l’empilement de plusieurs modèles (par exemple, 5 modèles pour Make-A-Video), l’implémentation est plus simple et permet de générer, avec seulement deux modèles de diffusion, des vidéos de 4 secondes en 512x512 à 16 images par seconde
- En pratique, 96 % des répondants l’ont préféré à Make-A-Video pour la qualité, et 85 % pour la fidélité au prompt textuel
- Le modèle dépasse aussi largement les travaux antérieurs en appliquant une « animation » à une image fournie par l’utilisateur à partir d’un prompt textuel
Emu Edit : édition d’images précise via des tâches de perception et de génération
- Pour obtenir l’image souhaitée, il faut souvent ajuster continuellement le prompt, d’où l’émergence du prompt engineering
- Mais cela présente encore des limites lorsqu’il s’agit d’un contrôle précis
- Emu Edit simplifie diverses tâches de manipulation d’images et apporte des capacités et une précision accrues en édition d’image
- Il permet une édition en forme libre via des commandes couvrant l’édition locale et globale, la suppression et l’ajout d’arrière-plan, les transformations de couleur et de géométrie, ainsi que la détection et la segmentation
- Les approches actuelles tendent souvent à modifier excessivement l’image ou à offrir de faibles performances sur diverses tâches d’édition
- Contrairement à de nombreux modèles d’IA générative actuels, Emu Edit suit précisément les instructions, ce qui permet de conserver intacts les pixels de l’image d’entrée sans rapport avec la consigne
- Par exemple, lors de l’ajout du texte « Aloha! » sur une casquette de baseball, la casquette elle-même ne doit pas être modifiée
- Pour entraîner le modèle, Meta a développé un jeu de données contenant 10 millions d’échantillons synthétiques, chacun comprenant une image d’entrée, une description de la tâche à effectuer et l’image cible en sortie
- Le plus grand jeu de données à ce jour
- Résultat : le modèle Emu Edit produit des résultats d’édition sans précédent en matière de fidélité aux instructions et de qualité d’image
- Il établit de nouveaux résultats de pointe, tant dans les évaluations qualitatives que quantitatives sur diverses tâches d’édition d’images, et démontre des performances supérieures aux approches existantes
1 commentaires
Emu Edit m’intéresse beaucoup. Avec DALL·E, quand on lui donne une consigne de modification, il régénère complètement l’image même si le seed est fixé, ce qui rend les petites retouches difficiles ; si l’édition fonctionne de cette manière, cela devrait être plus pratique à utiliser.