4 points par GN⁺ 2024-02-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Principe de fonctionnement de MGIE (MLLM-Guided Image Editing)

  • Interprétation des commandes avec un MLLM : MGIE utilise un MLLM pour extraire des instructions claires et concises à partir de l’entrée de l’utilisateur. Par exemple, pour la demande « rends le ciel plus bleu », il peut générer l’instruction « augmenter la saturation de la zone du ciel de 20 % ».
  • Génération d’une imagination visuelle : MGIE génère une imagination visuelle, c’est-à-dire une représentation latente qui capture l’essence de la modification souhaitée. Elle est utilisée pour guider la manipulation au niveau des pixels.
  • Méthode d’entraînement de bout en bout : MGIE utilise une nouvelle approche d’entraînement de bout en bout qui optimise conjointement l’extraction des instructions, la génération d’imagination visuelle et le module d’édition d’image.

Que peut faire MGIE ?

  • Édition fondée sur des instructions explicites : MGIE génère des instructions claires et concises qui guident efficacement le processus d’édition.
  • Retouches de style Photoshop : MGIE peut effectuer des opérations courantes de type Photoshop, comme le recadrage, le redimensionnement, la rotation, le retournement ou l’ajout de filtres. Il peut aussi réaliser des modifications plus complexes, comme changer l’arrière-plan, ajouter ou supprimer des objets, ou fusionner des images.
  • Optimisation de l’ensemble de la photo : MGIE peut optimiser la qualité globale d’une photo — luminosité, contraste, netteté, équilibre des couleurs — et appliquer des effets artistiques comme croquis, peinture ou style bande dessinée.
  • Édition locale : MGIE peut modifier des zones ou objets spécifiques dans l’image, comme le visage, les yeux, les cheveux, les vêtements ou les accessoires, ainsi que leurs attributs (forme, taille, couleur, texture, style).

Comment utiliser MGIE ?

  • Projet open source : MGIE est proposé comme projet open source sur GitHub, où l’on peut trouver le code, les données et les modèles préentraînés.
  • Notebook de démonstration et démo web : le projet propose un notebook de démonstration montrant comment utiliser MGIE pour différentes tâches d’édition, ainsi qu’une démo web hébergée sur Hugging Face Spaces pour l’essayer en ligne.
  • Conception pensée pour l’utilisateur : MGIE a été conçu pour être facile à utiliser et flexible à personnaliser. Les utilisateurs peuvent éditer des images avec des instructions en langage naturel, et MGIE génère l’image modifiée ainsi que les instructions déduites.

Pourquoi MGIE est-il important ?

  • Une avancée dans l’édition d’images guidée par instructions : MGIE marque une innovation dans le domaine de l’édition d’images basée sur des instructions, un défi majeur à la croisée de l’IA et de la créativité humaine.
  • Un outil pratique : MGIE peut aider à créer, modifier et optimiser des images à des fins personnelles ou professionnelles dans les réseaux sociaux, le e-commerce, l’éducation, le divertissement ou l’art.
  • Renforcement des capacités d’Apple en recherche et développement IA : MGIE met en lumière la montée en puissance d’Apple en recherche et développement en IA, et montre comment l’IA peut améliorer les tâches créatives du quotidien.

L’avis de GN⁺

  • MGIE est un modèle d’IA innovant qui édite des images à partir d’instructions en langage naturel, et il devrait grandement aider à matérialiser visuellement les idées créatives des utilisateurs.
  • Cet outil pourrait simplifier des tâches d’édition d’image techniquement complexes et contribuer à améliorer l’expérience utilisateur.
  • Un exemple qui illustre la progression d’Apple dans la recherche et le développement en IA

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.