Qwen-Image-Edit - présentation d’un modèle dédié à l’édition d’images

(huggingface.co)

18 points par GN⁺ 2025-08-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qwen-Image-Edit est un modèle d’extension dédié à l’édition d’images, basé sur le modèle Qwen-Image
Il adopte une architecture qui envoie simultanément l’image d’entrée à Qwen2.5-VL et au VAE Encoder, afin de prendre en charge à la fois l’édition sémantique et l’édition de l’apparence
Sa fonction d’édition de texte est particulièrement puissante, permettant de modifier directement du texte en chinois et en anglais tout en conservant la police, la taille et le style
Il atteint des performances de pointe (SOTA) sur divers benchmarks, s’imposant comme un solide modèle de base pour l’édition d’images
Il est publié en open source sous licence Apache 2.0, ce qui permet aux développeurs et aux chercheurs de l’utiliser librement

Présentation

Qwen-Image-Edit est un modèle qui étend les capacités de rendu de texte de Qwen-Image pour prendre en charge l’édition d’images
Son architecture transmet l’image d’entrée à la fois au contrôle sémantique (Qwen2.5-VL) et au contrôle de l’apparence (VAE Encoder)
Il se distingue par sa prise en charge à la fois de l’édition de texte de haute précision et de l’édition sémantique et visuelle

Édition sémantique & de l’apparence : prise en charge des changements sémantiques comme l’ajout, la suppression, la rotation d’objets ou la transformation de style, ainsi que de l’édition de l’apparence limitée à des zones spécifiques
Édition de texte de précision : modification directe de l’anglais et du chinois avec préservation de la police et du style d’origine
Avantage en performance : performances de pointe atteintes sur de nombreux benchmarks publics

Peut être utilisé via la bibliothèque Hugging Face diffusers
Le code d’exemple effectue une opération consistant à changer la couleur d’un lapin en violet et l’arrière-plan en éclairage de flash
Exécution efficace possible grâce à l’accélération CUDA et à la prise en charge de torch.bfloat16

Édition sémantique : possible pour la création d’IP de personnages, la rotation d’objets (90°, 180°) et la transformation de style (par ex. style Ghibli)
Édition de l’apparence : ajout d’enseignes, suppression de cheveux, modification de la couleur d’un texte spécifique, remplacement de l’arrière-plan, changement de vêtements, etc., avec une grande précision
Édition de texte : modification précise des grands comme des petits caractères sur des affiches en anglais et en chinois
Chaîne d’éditions successives : démonstration d’un cas où des erreurs de caractères dans une œuvre de calligraphie sont corrigées étape par étape jusqu’à obtenir une version complète

Extension d’IP de marque : présentation d’un cas de création d’émojis MBTI basés sur un personnage de capybara
Art et création : possibilité de créer des avatars virtuels grâce à diverses transformations de style de portraits
Usage industriel : prise en charge d’éditions fines, par exemple avec une génération naturelle jusqu’aux effets de réflexion lors de l’insertion de panneaux

Publié sous licence Apache 2.0, avec liberté d’utilisation, de modification et de redistribution