Résumé de l’analyse comparative des performances des modèles d’édition d’images basés sur le texte
- Points clés :
- Évaluation de la capacité de 7 modèles récents d’édition d’images basés sur le texte à exécuter 12 tâches d’édition.
- Seedream 4 a affiché les meilleures performances avec 9 réussites sur 12, suivi de Gemini 2.5 Flash avec 7 réussites.
- L’évaluation a été menée selon des règles strictes : prompt unique (one-shot) et édition sans masquage manuel (non-masked).
- Les modèles ont montré un faible taux de réussite sur des consignes complexes comme l’échange de positions spatiales et la suppression sélective d’éléments spécifiques.
Ⅰ. Introduction
- Objectif de l’évaluation : comparer et analyser les performances de différents modèles SOTA récents d’édition d’images, en se concentrant sur la modification d’images à partir d’instructions textuelles (text-instructed).
- Modèles évalués (7) : Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (un modèle supplémentaire a été exclu de la liste).
- Tâches d’évaluation : 12 prompts et défis d’édition au total, de difficulté et de types variés.
- Règles du comparatif :
- Principe de tentative unique (Single-attempt) : l’édition répétée de la même image à l’aide de prompts correctifs successifs n’est pas autorisée ; l’objectif doit être atteint en une seule tentative.
- Édition par instruction textuelle pure (Purely text-based) : l’édition d’image doit être réalisée uniquement via des instructions textuelles ; les fonctions comme img2img ou le masquage manuel (Manual Masking) pour l’inpainting ne sont donc pas autorisées.
Ⅱ. Analyse principale : performances par modèle et par type de tâche
1. Comparaison globale des taux de réussite
- Meilleure performance : Seedream 4 obtient le meilleur résultat avec 9 réussites sur 12 tâches.
- Deuxième place : Gemini 2.5 Flash suit avec 7 réussites.
- Milieu de tableau : Qwen-Image-Edit enregistre 6 réussites, et FLUX.1 Kontext [dev] 5.
- Bas de classement : OpenAI gpt-image-1 ne réussit que 4 tâches, et OmniGen2 seulement 1.
2. Analyse des performances selon les types d’édition
2.1. Tâches de perception spatiale et de repositionnement : faible taux de réussite
- 'SHRDLU' (échange de position des blocs) : échec des 6 modèles (0/6). La plupart se sont contentés d’échanger les couleurs des blocs plutôt que leur position ; Gemini 2.5 Flash et Seedream 4 n’ont échangé que les couleurs.
- 'Redresser la tour de Pise inclinée' : 2 réussites sur 6 (2/6). Cette tâche nécessite une perception spatiale élémentaire, et les modèles ont eu du mal à corriger verticalement un objet spécifique tout en préservant le reste de l’environnement.
2.2. Tâches de modification et de préservation d’éléments détaillés : résultats mitigés
- 'Transformer Jaws en Paws, entre autres éditions multiples' : 5 réussites sur 6 (5/6). La tâche exige d’effectuer plusieurs modifications simultanément ; OmniGen2 a réussi l’édition mais a échoué à préserver le style esthétique de l’original.
- 'Ajouter des cheveux à un homme barbu' : 4 réussites sur 6 (4/6). Le résultat de Gemini 2.5 Flash était correct, mais les cheveux semblaient trop pointus, tandis que OpenAI gpt-image-1 a transformé l’ensemble de l’image.
- 'Modifier une carte de hwatu' : 3 réussites sur 6 (3/6). Cette tâche testait la capacité d’édition sélective consistant à ne modifier qu’une carte précise (King of Spades) tout en laissant une autre intacte (Ace of Spades) ; Qwen-Image-Edit a aussi modifié l’Ace of Spades de façon indésirable.
2.3. Tâches de préservation des détails et de manipulation d’objets complexes : principal obstacle
- 'Raccourcir le cou de la girafe' : 1 réussite sur 6 (1/6). La plupart des modèles n’ont pas réussi à raccourcir le cou de la girafe ; dans le cas de Qwen-Image-Edit, le modèle a carrément supprimé tout le cou, interprétant le prompt de façon anormale.
- 'Retirer le bonbon M&M brun' : 1 réussite sur 6 (1/6). Les modèles ont eu du mal à supprimer sélectivement (ou à changer la couleur de) seulement les bonbons d’une couleur donnée ; Gemini 2.5 Flash a généré un nouvel agencement de bonbons.
- 'Remplacer le kangourou d’un vieux panneau par une silhouette de ver des sables' : 1 réussite sur 6 (1/6). Les modèles ont manqué de capacité à insérer un nouvel élément tout en préservant la texture vieillie du panneau existant, comme les rayures et la rouille.
Ⅲ. Conclusion
- Caractéristiques des meilleurs modèles : Seedream 4 et Gemini 2.5 Flash ont montré de bonnes performances globales, mais présentent encore des limites pour comprendre et appliquer parfaitement des instructions textuelles complexes et subtiles.
- Principaux types d’échec : les modèles affichent de manière récurrente de faibles taux de réussite sur les tâches exigeant une compréhension précise des relations spatiales ainsi que l’édition sélective et la préservation de petits éléments spécifiques dans l’image.
- Axes d’amélioration futurs :
- GPT-image-1 a souvent tendance à modifier involontairement l’image entière ; sa précision pour localiser la zone d’édition doit être améliorée.
- Pour certains modèles comme 'FLUX.1 Kontext [dev]' et 'Kontext Max', un résultat inhabituel est apparu : un modèle plus grand a moins bien performé que la version de développement plus petite, ce qui appelle une analyse de l’impact du type de données d’entraînement (photo vs illustration) sur les performances.
- Pour les tâches difficiles à résoudre avec un seul prompt (par exemple la modification du design d’une carte), il serait utile de faire évoluer la méthodologie de test vers une approche utilisant plusieurs images en entrée comme références.
Aucun commentaire pour le moment.