- Contenu présenté sous la forme d’une comparaison des résultats de plusieurs outils d’édition d’images par IA générative
- Structure visant à comparer visuellement les résultats d’édition générés par chaque outil à partir de la même entrée
- La page affiche la mention « Loading editing comparisons... », indiquant que le chargement de la comparaison des éditions est en cours
- En dehors du titre, aucun nom d’outil précis, critère de comparaison ou description des résultats n’est fourni
- Dans l’ensemble, il semble s’agir d’une interface destinée à comparer les performances d’édition d’images par IA, mais les détails ne figurent pas dans la source
Aperçu de la page
- Le titre est « Generative AI Image Editing Showdown », ce qui suggère une comparaison entre plusieurs modèles d’édition d’images par IA
- Le corps du texte ne contient que la mention « Loading editing comparisons... » et n’inclut ni résultats de comparaison ni explications
- La source ne contient aucun texte supplémentaire, aucune donnée, aucune image, aucune liste d’outils ni aucun critère d’évaluation
Limites des informations fournies
- La source ne donne aucune explication concrète sur les résultats d’édition ou le contenu de la comparaison
- Par conséquent, l’objectif précis de la comparaison, les modèles d’IA utilisés et la méthode d’évaluation ne sont pas explicités
- Globalement, le contenu semble être dans un état de chargement, sans informations substantielles disponibles
1 commentaires
Avis Hacker News
Tout le monde sous-estime Gemini 2.5 Flash Image / Nano Banana
C’est bien plus puissant que les autres modèles pour le même prix par image, et grâce à son encodeur de texte, il peut traiter des prompts complexes et nuancés bien plus efficacement
J’ai publié des exemples avec mon package Python gemimg, et je prépare aussi un article de blog avec encore plus de cas variés
Le AI Studio de Google permet même une génération gratuite avec contrôle du ratio
Cela dit, j’ai quand même été surpris que Seedream 4.0 ait gagné ce test
En dehors des fonctions intégrées à ChatGPT ou de la mode du style Ghibli, je pense que c’est l’un des modèles d’édition d’images les plus connus
Ce n’est pas un gros problème pour mon usage, mais pour ceux qui ont besoin d’une cohérence colorimétrique stricte, Nano Banana peut être un meilleur choix
Ce n’était même pas des requêtes à la limite du copyright, mais ce genre d’erreur arrive souvent
Malgré ça, quand ça marche, les résultats sont vraiment impressionnants
Au deuxième essai, j’ai d’abord extrait via analyse d’image une liste des objets en désordre, puis je les ai supprimés via le prompt, et le résultat était bien meilleur
Ça m’a rappelé à quel point le prompt engineering reste important
Flux est étonnamment bon, mais la plupart des gens, moi compris, finissent par utiliser par défaut des modèles familiers comme ChatGPT ou Gemini
Ce genre de comparaison est bien plus pratique que des graphiques de benchmark
J’utilise souvent Nano Banana, mais il est faible pour l’édition d’extérieurs architecturaux ou paysagers
Les trottoirs, caniveaux, correspondances de couleurs, ce genre de choses est quasiment impossible
Nano Banana aussi gère mal les bords, ce qui décale la photo
Pour quelqu’un qui a connu les références de 2022, les démos actuelles sont sidérantes au point d’être incomparables avec l’époque de SD1·2·3
On a l’impression d’être enfin entrés dans une ère où les modèles comprennent réellement les prompts et les images
C’est une période où les progrès d’ingénierie continuent d’élargir la créativité de façon explosive
Changer les prompts ou le nombre d’essais, puis ne montrer que les résultats préférés, affaiblit l’objectivité du test
Il faudrait des conditions uniformes, par exemple 5 générations pour tous les modèles avec le même prompt et la même seed
Par exemple, Gemini 2.5 Flash a eu trop de latitude dans le test de “Girl with Pearl Earring”,
alors qu’OpenAI gpt-image-1 a été classé comme échec malgré un résultat bien meilleur avec moins d’essais
Dans mon article sur le blog Replicate, j’ai comparé directement plusieurs modèles
Parmi eux, Qwen Image Edit était le moins cher et le plus rapide, tout en gérant correctement la plupart des tâches d’édition
Si je devais créer une app d’édition d’images, c’est probablement ce modèle que je choisirais
La comparaison était intéressante en soi, mais la dernière image de girafe ne faisait que plier le corps au lieu de vraiment le raccourcir
Malgré ça, je me suis souvent retrouvé à préférer les résultats de Gemini, et j’aurais aimé une notation sur 10 plutôt qu’un simple pass/fail
S’il existait vraiment une exposition comme ça, j’irais volontiers la voir
Ces derniers temps, je ne fais presque plus de génération d’images par IA
Il y a encore un an et demi, c’était la mode de faire tourner soi-même les modèles en local, mais aujourd’hui presque tout a basculé vers le cloud
Malgré tout, dans l’édition de photos réalistes, on sent encore souvent une texture artificielle
Par exemple, les cheveux humains brillent trop ou les arbres ont l’air en plastique
On peut faire tourner Flux Kontext en local, mais il faut générer lentement avec un modèle quantifié, donc c’est inefficace
En plus, comme on peut créer des images gratuitement dans ChatGPT, il y a de moins en moins de raisons de s’obstiner avec le local
Dans le test des cheveux, seul Gemini 2.5 Flash a vraiment bien respecté les couleurs et la texture,
tandis que Seedream 4 modifiait tout l’étalonnage colorimétrique, ce qui fait que je ne le préfère pas
Je pense que Reve mériterait aussi d’être inclus dans le test
Il a supprimé l’objet que le personnage tenait, redirigé son regard vers la caméra, et ajusté naturellement la pose
En plus, les 4 résultats étaient d’une qualité suffisante pour être utilisables
Après avoir lu le billet de présentation du modèle de Reve, j’ai décidé de m’inscrire immédiatement
L’essai était intéressant, mais des prompts erronés comme « la tour du tableau penche vers la droite » poussent au contraire le modèle à l’incliner encore davantage
Les prompts étant ajustés selon les modèles, le nombre d’essais variait donc aussi
Globalement, c’était un test amusant
Certains disent que les prompts n’étaient pas parfaits, mais justement, ils sont réalistes, au niveau de ce qu’un utilisateur ordinaire pourrait saisir
Comme expliqué dans la FAQ, j’essaie plusieurs versions afin d’éviter que le modèle ne reste bloqué sur certains mots
Par exemple, une phrase impérative comme “Turn on the lights” n’est pas juste une simple instruction,
c’est un prompt destiné à tester la capacité de compréhension d’un LLM multimodal
Ce genre de phrase ne fonctionnerait jamais avec un modèle traditionnel comme SDXL