18 points par GN⁺ 2025-08-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Qwen-Image-Edit est un modèle d’extension dédié à l’édition d’images, basé sur le modèle Qwen-Image
  • Il adopte une architecture qui envoie simultanément l’image d’entrée à Qwen2.5-VL et au VAE Encoder, afin de prendre en charge à la fois l’édition sémantique et l’édition de l’apparence
  • Sa fonction d’édition de texte est particulièrement puissante, permettant de modifier directement du texte en chinois et en anglais tout en conservant la police, la taille et le style
  • Il atteint des performances de pointe (SOTA) sur divers benchmarks, s’imposant comme un solide modèle de base pour l’édition d’images
  • Il est publié en open source sous licence Apache 2.0, ce qui permet aux développeurs et aux chercheurs de l’utiliser librement

Présentation

  • Qwen-Image-Edit est un modèle qui étend les capacités de rendu de texte de Qwen-Image pour prendre en charge l’édition d’images
  • Son architecture transmet l’image d’entrée à la fois au contrôle sémantique (Qwen2.5-VL) et au contrôle de l’apparence (VAE Encoder)
  • Il se distingue par sa prise en charge à la fois de l’édition de texte de haute précision et de l’édition sémantique et visuelle

Fonctionnalités principales

  • Édition sémantique & de l’apparence : prise en charge des changements sémantiques comme l’ajout, la suppression, la rotation d’objets ou la transformation de style, ainsi que de l’édition de l’apparence limitée à des zones spécifiques
  • Édition de texte de précision : modification directe de l’anglais et du chinois avec préservation de la police et du style d’origine
  • Avantage en performance : performances de pointe atteintes sur de nombreux benchmarks publics

Démarrage rapide

  • Peut être utilisé via la bibliothèque Hugging Face diffusers
  • Le code d’exemple effectue une opération consistant à changer la couleur d’un lapin en violet et l’arrière-plan en éclairage de flash
  • Exécution efficace possible grâce à l’accélération CUDA et à la prise en charge de torch.bfloat16

Cas de démonstration (Showcase)

  • Édition sémantique : possible pour la création d’IP de personnages, la rotation d’objets (90°, 180°) et la transformation de style (par ex. style Ghibli)
  • Édition de l’apparence : ajout d’enseignes, suppression de cheveux, modification de la couleur d’un texte spécifique, remplacement de l’arrière-plan, changement de vêtements, etc., avec une grande précision
  • Édition de texte : modification précise des grands comme des petits caractères sur des affiches en anglais et en chinois
  • Chaîne d’éditions successives : démonstration d’un cas où des erreurs de caractères dans une œuvre de calligraphie sont corrigées étape par étape jusqu’à obtenir une version complète

Scénarios d’application

  • Extension d’IP de marque : présentation d’un cas de création d’émojis MBTI basés sur un personnage de capybara
  • Art et création : possibilité de créer des avatars virtuels grâce à diverses transformations de style de portraits
  • Usage industriel : prise en charge d’éditions fines, par exemple avec une génération naturelle jusqu’aux effets de réflexion lors de l’insertion de panneaux

Licence

  • Publié sous licence Apache 2.0, avec liberté d’utilisation, de modification et de redistribution

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.