- Qwen-Image-Edit est un modèle d’extension dédié à l’édition d’images, basé sur le modèle Qwen-Image
- Il adopte une architecture qui envoie simultanément l’image d’entrée à Qwen2.5-VL et au VAE Encoder, afin de prendre en charge à la fois l’édition sémantique et l’édition de l’apparence
- Sa fonction d’édition de texte est particulièrement puissante, permettant de modifier directement du texte en chinois et en anglais tout en conservant la police, la taille et le style
- Il atteint des performances de pointe (SOTA) sur divers benchmarks, s’imposant comme un solide modèle de base pour l’édition d’images
- Il est publié en open source sous licence Apache 2.0, ce qui permet aux développeurs et aux chercheurs de l’utiliser librement
Présentation
- Qwen-Image-Edit est un modèle qui étend les capacités de rendu de texte de Qwen-Image pour prendre en charge l’édition d’images
- Son architecture transmet l’image d’entrée à la fois au contrôle sémantique (Qwen2.5-VL) et au contrôle de l’apparence (VAE Encoder)
- Il se distingue par sa prise en charge à la fois de l’édition de texte de haute précision et de l’édition sémantique et visuelle
Fonctionnalités principales
- Édition sémantique & de l’apparence : prise en charge des changements sémantiques comme l’ajout, la suppression, la rotation d’objets ou la transformation de style, ainsi que de l’édition de l’apparence limitée à des zones spécifiques
- Édition de texte de précision : modification directe de l’anglais et du chinois avec préservation de la police et du style d’origine
- Avantage en performance : performances de pointe atteintes sur de nombreux benchmarks publics
Démarrage rapide
- Peut être utilisé via la bibliothèque Hugging Face
diffusers
- Le code d’exemple effectue une opération consistant à changer la couleur d’un lapin en violet et l’arrière-plan en éclairage de flash
- Exécution efficace possible grâce à l’accélération CUDA et à la prise en charge de
torch.bfloat16
Cas de démonstration (Showcase)
- Édition sémantique : possible pour la création d’IP de personnages, la rotation d’objets (90°, 180°) et la transformation de style (par ex. style Ghibli)
- Édition de l’apparence : ajout d’enseignes, suppression de cheveux, modification de la couleur d’un texte spécifique, remplacement de l’arrière-plan, changement de vêtements, etc., avec une grande précision
- Édition de texte : modification précise des grands comme des petits caractères sur des affiches en anglais et en chinois
- Chaîne d’éditions successives : démonstration d’un cas où des erreurs de caractères dans une œuvre de calligraphie sont corrigées étape par étape jusqu’à obtenir une version complète
Scénarios d’application
- Extension d’IP de marque : présentation d’un cas de création d’émojis MBTI basés sur un personnage de capybara
- Art et création : possibilité de créer des avatars virtuels grâce à diverses transformations de style de portraits
- Usage industriel : prise en charge d’éditions fines, par exemple avec une génération naturelle jusqu’aux effets de réflexion lors de l’insertion de panneaux
Licence
- Publié sous licence Apache 2.0, avec liberté d’utilisation, de modification et de redistribution
Aucun commentaire pour le moment.