Duel d’édition d’images par IA générative

(genai-showdown.specr.net)

1 points par GN⁺ 2025-10-30 | 1 commentaires | Partager sur WhatsApp

Contenu présenté sous la forme d’une comparaison des résultats de plusieurs outils d’édition d’images par IA générative
Structure visant à comparer visuellement les résultats d’édition générés par chaque outil à partir de la même entrée
La page affiche la mention « Loading editing comparisons... », indiquant que le chargement de la comparaison des éditions est en cours
En dehors du titre, aucun nom d’outil précis, critère de comparaison ou description des résultats n’est fourni
Dans l’ensemble, il semble s’agir d’une interface destinée à comparer les performances d’édition d’images par IA, mais les détails ne figurent pas dans la source

Aperçu de la page

Le titre est « Generative AI Image Editing Showdown », ce qui suggère une comparaison entre plusieurs modèles d’édition d’images par IA
Le corps du texte ne contient que la mention « Loading editing comparisons... » et n’inclut ni résultats de comparaison ni explications
La source ne contient aucun texte supplémentaire, aucune donnée, aucune image, aucune liste d’outils ni aucun critère d’évaluation

Limites des informations fournies

La source ne donne aucune explication concrète sur les résultats d’édition ou le contenu de la comparaison
Par conséquent, l’objectif précis de la comparaison, les modèles d’IA utilisés et la méthode d’évaluation ne sont pas explicités
Globalement, le contenu semble être dans un état de chargement, sans informations substantielles disponibles

1 commentaires

GN⁺ 2025-10-30

Avis Hacker News

Tout le monde sous-estime Gemini 2.5 Flash Image / Nano Banana
C’est bien plus puissant que les autres modèles pour le même prix par image, et grâce à son encodeur de texte, il peut traiter des prompts complexes et nuancés bien plus efficacement
J’ai publié des exemples avec mon package Python gemimg, et je prépare aussi un article de blog avec encore plus de cas variés
Le AI Studio de Google permet même une génération gratuite avec contrôle du ratio
Cela dit, j’ai quand même été surpris que Seedream 4.0 ait gagné ce test
- En réalité, Nano Banana avait déjà pas mal fait le buzz à sa sortie
  En dehors des fonctions intégrées à ChatGPT ou de la mode du style Ghibli, je pense que c’est l’un des modèles d’édition d’images les plus connus
- Seedream était meilleur sur la fidélité au prompt, mais il a tendance à provoquer de légers changements de dégradé de couleurs
  Ce n’est pas un gros problème pour mon usage, mais pour ceux qui ont besoin d’une cohérence colorimétrique stricte, Nano Banana peut être un meilleur choix
- Quand j’utilise Nano Banana, environ une fois sur deux AI Studio indique un échec sans raison
  Ce n’était même pas des requêtes à la limite du copyright, mais ce genre d’erreur arrive souvent
  Malgré ça, quand ça marche, les résultats sont vraiment impressionnants
- J’ai utilisé Nano Banana pour ranger une photo de ma cuisine en bazar, et au début ça a complètement échoué
  Au deuxième essai, j’ai d’abord extrait via analyse d’image une liste des objets en désordre, puis je les ai supprimés via le prompt, et le résultat était bien meilleur
  Ça m’a rappelé à quel point le prompt engineering reste important
- Gemini est excellent quand il fonctionne bien, mais parfois il sort quelque chose de totalement à côté, et aucun prompt ne permet de le remettre sur les rails
  Flux est étonnamment bon, mais la plupart des gens, moi compris, finissent par utiliser par défaut des modèles familiers comme ChatGPT ou Gemini
Ce genre de comparaison est bien plus pratique que des graphiques de benchmark
J’utilise souvent Nano Banana, mais il est faible pour l’édition d’extérieurs architecturaux ou paysagers
Les trottoirs, caniveaux, correspondances de couleurs, ce genre de choses est quasiment impossible
- Je fais des essais avec Qwen Image Edit pour transformer des photos de jour en scènes de nuit, et la plupart des modèles ratent l’alignement des contours
  Nano Banana aussi gère mal les bords, ce qui décale la photo
Pour quelqu’un qui a connu les références de 2022, les démos actuelles sont sidérantes au point d’être incomparables avec l’époque de SD1·2·3
On a l’impression d’être enfin entrés dans une ère où les modèles comprennent réellement les prompts et les images
C’est une période où les progrès d’ingénierie continuent d’élargir la créativité de façon explosive
Changer les prompts ou le nombre d’essais, puis ne montrer que les résultats préférés, affaiblit l’objectivité du test
Il faudrait des conditions uniformes, par exemple 5 générations pour tous les modèles avec le même prompt et la même seed
Par exemple, Gemini 2.5 Flash a eu trop de latitude dans le test de “Girl with Pearl Earring”,
alors qu’OpenAI gpt-image-1 a été classé comme échec malgré un résultat bien meilleur avec moins d’essais
- Pour information, l’exemple de gpt-image-1 correspondait au test “You Only Move Twice”
- À la limite, un concours de la « pire image » montrerait plus clairement quels modèles sont les moins frustrants
Dans mon article sur le blog Replicate, j’ai comparé directement plusieurs modèles
Parmi eux, Qwen Image Edit était le moins cher et le plus rapide, tout en gérant correctement la plupart des tâches d’édition
Si je devais créer une app d’édition d’images, c’est probablement ce modèle que je choisirais
La comparaison était intéressante en soi, mais la dernière image de girafe ne faisait que plier le corps au lieu de vraiment le raccourcir
Malgré ça, je me suis souvent retrouvé à préférer les résultats de Gemini, et j’aurais aimé une notation sur 10 plutôt qu’un simple pass/fail
- L’expression « girafe bizarrement pliée » m’a fait beaucoup rire
  S’il existait vraiment une exposition comme ça, j’irais volontiers la voir
Ces derniers temps, je ne fais presque plus de génération d’images par IA
Il y a encore un an et demi, c’était la mode de faire tourner soi-même les modèles en local, mais aujourd’hui presque tout a basculé vers le cloud
Malgré tout, dans l’édition de photos réalistes, on sent encore souvent une texture artificielle
Par exemple, les cheveux humains brillent trop ou les arbres ont l’air en plastique
- La taille des modèles d’image et leurs besoins en calcul sont devenus trop importants pour permettre facilement l’auto-hébergement par des particuliers
  On peut faire tourner Flux Kontext en local, mais il faut générer lentement avec un modèle quantifié, donc c’est inefficace
  En plus, comme on peut créer des images gratuitement dans ChatGPT, il y a de moins en moins de raisons de s’obstiner avec le local
  Dans le test des cheveux, seul Gemini 2.5 Flash a vraiment bien respecté les couleurs et la texture,
  tandis que Seedream 4 modifiait tout l’étalonnage colorimétrique, ce qui fait que je ne le préfère pas
Je pense que Reve mériterait aussi d’être inclus dans le test
- Avec Nano Banana, je n’arrivais pas bien à modifier la direction du regard d’un personnage, alors que Reve a donné un résultat parfait du premier coup
  Il a supprimé l’objet que le personnage tenait, redirigé son regard vers la caméra, et ajusté naturellement la pose
  En plus, les 4 résultats étaient d’une qualité suffisante pour être utilisables
  Après avoir lu le billet de présentation du modèle de Reve, j’ai décidé de m’inscrire immédiatement
- Merci pour la recommandation, je vais probablement l’ajouter à la liste des tests plus tard
- Merci pour le bon tuyau
L’essai était intéressant, mais des prompts erronés comme « la tour du tableau penche vers la droite » poussent au contraire le modèle à l’incliner encore davantage
- Cette phrase n’était pas le vrai prompt d’entrée, mais une phrase de départ
  Les prompts étant ajustés selon les modèles, le nombre d’essais variait donc aussi
Globalement, c’était un test amusant
Certains disent que les prompts n’étaient pas parfaits, mais justement, ils sont réalistes, au niveau de ce qu’un utilisateur ordinaire pourrait saisir
- Je travaille les prompts depuis l’époque de SD 1.5, donc je connais bien les variations de prompt nécessaires selon les modèles
  Comme expliqué dans la FAQ, j’essaie plusieurs versions afin d’éviter que le modèle ne reste bloqué sur certains mots
  Par exemple, une phrase impérative comme “Turn on the lights” n’est pas juste une simple instruction,
  c’est un prompt destiné à tester la capacité de compréhension d’un LLM multimodal
  Ce genre de phrase ne fonctionnerait jamais avec un modèle traditionnel comme SDXL

Duel d’édition d’images par IA générative

Aperçu de la page

Limites des informations fournies

À lire aussi

1 commentaires

Avis Hacker News