1 points par GN⁺ 2025-10-30 | 1 commentaires | Partager sur WhatsApp
  • Contenu présenté sous la forme d’une comparaison des résultats de plusieurs outils d’édition d’images par IA générative
  • Structure visant à comparer visuellement les résultats d’édition générés par chaque outil à partir de la même entrée
  • La page affiche la mention « Loading editing comparisons... », indiquant que le chargement de la comparaison des éditions est en cours
  • En dehors du titre, aucun nom d’outil précis, critère de comparaison ou description des résultats n’est fourni
  • Dans l’ensemble, il semble s’agir d’une interface destinée à comparer les performances d’édition d’images par IA, mais les détails ne figurent pas dans la source

Aperçu de la page

  • Le titre est « Generative AI Image Editing Showdown », ce qui suggère une comparaison entre plusieurs modèles d’édition d’images par IA
  • Le corps du texte ne contient que la mention « Loading editing comparisons... » et n’inclut ni résultats de comparaison ni explications
  • La source ne contient aucun texte supplémentaire, aucune donnée, aucune image, aucune liste d’outils ni aucun critère d’évaluation

Limites des informations fournies

  • La source ne donne aucune explication concrète sur les résultats d’édition ou le contenu de la comparaison
  • Par conséquent, l’objectif précis de la comparaison, les modèles d’IA utilisés et la méthode d’évaluation ne sont pas explicités
  • Globalement, le contenu semble être dans un état de chargement, sans informations substantielles disponibles

1 commentaires

 
GN⁺ 2025-10-30
Avis Hacker News
  • Tout le monde sous-estime Gemini 2.5 Flash Image / Nano Banana
    C’est bien plus puissant que les autres modèles pour le même prix par image, et grâce à son encodeur de texte, il peut traiter des prompts complexes et nuancés bien plus efficacement
    J’ai publié des exemples avec mon package Python gemimg, et je prépare aussi un article de blog avec encore plus de cas variés
    Le AI Studio de Google permet même une génération gratuite avec contrôle du ratio
    Cela dit, j’ai quand même été surpris que Seedream 4.0 ait gagné ce test

    • En réalité, Nano Banana avait déjà pas mal fait le buzz à sa sortie
      En dehors des fonctions intégrées à ChatGPT ou de la mode du style Ghibli, je pense que c’est l’un des modèles d’édition d’images les plus connus
    • Seedream était meilleur sur la fidélité au prompt, mais il a tendance à provoquer de légers changements de dégradé de couleurs
      Ce n’est pas un gros problème pour mon usage, mais pour ceux qui ont besoin d’une cohérence colorimétrique stricte, Nano Banana peut être un meilleur choix
    • Quand j’utilise Nano Banana, environ une fois sur deux AI Studio indique un échec sans raison
      Ce n’était même pas des requêtes à la limite du copyright, mais ce genre d’erreur arrive souvent
      Malgré ça, quand ça marche, les résultats sont vraiment impressionnants
    • J’ai utilisé Nano Banana pour ranger une photo de ma cuisine en bazar, et au début ça a complètement échoué
      Au deuxième essai, j’ai d’abord extrait via analyse d’image une liste des objets en désordre, puis je les ai supprimés via le prompt, et le résultat était bien meilleur
      Ça m’a rappelé à quel point le prompt engineering reste important
    • Gemini est excellent quand il fonctionne bien, mais parfois il sort quelque chose de totalement à côté, et aucun prompt ne permet de le remettre sur les rails
      Flux est étonnamment bon, mais la plupart des gens, moi compris, finissent par utiliser par défaut des modèles familiers comme ChatGPT ou Gemini
  • Ce genre de comparaison est bien plus pratique que des graphiques de benchmark
    J’utilise souvent Nano Banana, mais il est faible pour l’édition d’extérieurs architecturaux ou paysagers
    Les trottoirs, caniveaux, correspondances de couleurs, ce genre de choses est quasiment impossible

    • Je fais des essais avec Qwen Image Edit pour transformer des photos de jour en scènes de nuit, et la plupart des modèles ratent l’alignement des contours
      Nano Banana aussi gère mal les bords, ce qui décale la photo
  • Pour quelqu’un qui a connu les références de 2022, les démos actuelles sont sidérantes au point d’être incomparables avec l’époque de SD1·2·3
    On a l’impression d’être enfin entrés dans une ère où les modèles comprennent réellement les prompts et les images
    C’est une période où les progrès d’ingénierie continuent d’élargir la créativité de façon explosive

  • Changer les prompts ou le nombre d’essais, puis ne montrer que les résultats préférés, affaiblit l’objectivité du test
    Il faudrait des conditions uniformes, par exemple 5 générations pour tous les modèles avec le même prompt et la même seed
    Par exemple, Gemini 2.5 Flash a eu trop de latitude dans le test de “Girl with Pearl Earring”,
    alors qu’OpenAI gpt-image-1 a été classé comme échec malgré un résultat bien meilleur avec moins d’essais

    • Pour information, l’exemple de gpt-image-1 correspondait au test “You Only Move Twice”
    • À la limite, un concours de la « pire image » montrerait plus clairement quels modèles sont les moins frustrants
  • Dans mon article sur le blog Replicate, j’ai comparé directement plusieurs modèles
    Parmi eux, Qwen Image Edit était le moins cher et le plus rapide, tout en gérant correctement la plupart des tâches d’édition
    Si je devais créer une app d’édition d’images, c’est probablement ce modèle que je choisirais

  • La comparaison était intéressante en soi, mais la dernière image de girafe ne faisait que plier le corps au lieu de vraiment le raccourcir
    Malgré ça, je me suis souvent retrouvé à préférer les résultats de Gemini, et j’aurais aimé une notation sur 10 plutôt qu’un simple pass/fail

    • L’expression « girafe bizarrement pliée » m’a fait beaucoup rire
      S’il existait vraiment une exposition comme ça, j’irais volontiers la voir
  • Ces derniers temps, je ne fais presque plus de génération d’images par IA
    Il y a encore un an et demi, c’était la mode de faire tourner soi-même les modèles en local, mais aujourd’hui presque tout a basculé vers le cloud
    Malgré tout, dans l’édition de photos réalistes, on sent encore souvent une texture artificielle
    Par exemple, les cheveux humains brillent trop ou les arbres ont l’air en plastique

    • La taille des modèles d’image et leurs besoins en calcul sont devenus trop importants pour permettre facilement l’auto-hébergement par des particuliers
      On peut faire tourner Flux Kontext en local, mais il faut générer lentement avec un modèle quantifié, donc c’est inefficace
      En plus, comme on peut créer des images gratuitement dans ChatGPT, il y a de moins en moins de raisons de s’obstiner avec le local
      Dans le test des cheveux, seul Gemini 2.5 Flash a vraiment bien respecté les couleurs et la texture,
      tandis que Seedream 4 modifiait tout l’étalonnage colorimétrique, ce qui fait que je ne le préfère pas
  • Je pense que Reve mériterait aussi d’être inclus dans le test

    • Avec Nano Banana, je n’arrivais pas bien à modifier la direction du regard d’un personnage, alors que Reve a donné un résultat parfait du premier coup
      Il a supprimé l’objet que le personnage tenait, redirigé son regard vers la caméra, et ajusté naturellement la pose
      En plus, les 4 résultats étaient d’une qualité suffisante pour être utilisables
      Après avoir lu le billet de présentation du modèle de Reve, j’ai décidé de m’inscrire immédiatement
    • Merci pour la recommandation, je vais probablement l’ajouter à la liste des tests plus tard
    • Merci pour le bon tuyau
  • L’essai était intéressant, mais des prompts erronés comme « la tour du tableau penche vers la droite » poussent au contraire le modèle à l’incliner encore davantage

    • Cette phrase n’était pas le vrai prompt d’entrée, mais une phrase de départ
      Les prompts étant ajustés selon les modèles, le nombre d’essais variait donc aussi
  • Globalement, c’était un test amusant
    Certains disent que les prompts n’étaient pas parfaits, mais justement, ils sont réalistes, au niveau de ce qu’un utilisateur ordinaire pourrait saisir

    • Je travaille les prompts depuis l’époque de SD 1.5, donc je connais bien les variations de prompt nécessaires selon les modèles
      Comme expliqué dans la FAQ, j’essaie plusieurs versions afin d’éviter que le modèle ne reste bloqué sur certains mots
      Par exemple, une phrase impérative comme “Turn on the lights” n’est pas juste une simple instruction,
      c’est un prompt destiné à tester la capacité de compréhension d’un LLM multimodal
      Ce genre de phrase ne fonctionnerait jamais avec un modèle traditionnel comme SDXL