Magma - un modèle de base pour les agents IA multimodaux
(microsoft.github.io)- Magma est le premier modèle de base capable d’interpréter des entrées multimodales et de les relier à l’environnement, ce qui lui permet de gérer des interactions complexes dans les mondes virtuel et réel
- Au-delà de la simple compréhension d’images et de vidéos, il génère une planification visuelle et une exécution orientées objectifs pour accomplir diverses tâches d’agents IA
- Il atteint des performances de pointe sur plusieurs tâches multimodales, notamment la navigation UI, la manipulation robotique et la compréhension d’images et de vidéos, en particulier la compréhension spatiale et le raisonnement
- Méthode de préentraînement extensible : en apprenant à partir de données vidéo non étiquetées avec des données d’agents existantes, il obtient de solides performances de généralisation, adaptées aux applications réelles
- Le code, le modèle et la démo de navigation UI seront publiés sur le MSR Forum (2025.02.25).
Objectifs de Magma
- Intelligence langagière et spatio-temporelle :
- capacité à comprendre avec précision les images et les vidéos, puis à convertir cet acquis en plans d’action et en exécution orientés objectifs
- Fonctionnement dans des environnements numériques et physiques :
- capable d’effectuer à la fois la navigation web (manipulation d’UI) et la manipulation robotique
- une IA capable de passer librement entre les environnements numériques et physiques, à la manière des humains
- Pour cela, Magma a été entraîné grâce au développement d’un nouveau jeu de données d’apprentissage exploitant des données vidéo non étiquetées et des données d’agents existantes, ainsi qu’un framework de préentraînement intégrant texte, image et action
Méthode de préentraînement de Magma
- Magma est entraîné via deux approches clés.
- 1️⃣ Exploitation de vastes données d’apprentissage hétérogènes
- En plus des données multimodales existantes, des données de navigation UI et des données de manipulation robotique, il apprend également à partir de grandes quantités de données vidéo non étiquetées collectées.
- En supprimant les mouvements de caméra et en extrayant des données d’action réelles, le modèle peut apprendre la prédiction et la planification d’actions à long terme.
- 2️⃣ Définition d’objectifs de préentraînement unifiés
- Le texte et l’action sont fondamentalement différents, et le défi consiste à les relier efficacement
- En introduisant de nouvelles techniques d’apprentissage comme Set-of-Mark et Trace-of-Mark, il construit une structure d’alignement puissante entre texte, image et action
- Set-of-Mark (SoM) : permet un ancrage d’action efficace dans l’image, en prédisant des repères numériques sur des boutons cliquables ou sur le bras robotique dans des captures d’écran UI, des manipulations robotiques et des vidéos humaines.
- Trace-of-Mark (ToM) : fournit une supervision pour la manipulation robotique et les actions humaines, afin que le modèle comprenne la dynamique temporelle des vidéos et prédise les états futurs avant d’agir.
Utilisation du modèle
Utilisation directe (sans fine-tuning)
Magma a été conçu pour la recherche et peut être utilisé des façons suivantes.
- Génération de texte à partir d’images/vidéos : il peut générer des descriptions et des réponses à partir des images et du texte fournis en entrée.
- Planification visuelle (Visual Planning) : il peut prédire une trajectoire d’actions futures pour atteindre un objectif, comme le déplacement d’un objet.
- Fonctions d’agent :
- Navigation UI : par exemple, prédiction d’une action d’UI comme « cliquer sur le bouton de recherche »
- Manipulation robotique : prédiction de manipulations robotiques à 7 degrés de liberté (7 DoF)
Tâches downstream (avec fine-tuning)
Magma peut aussi être entraîné davantage pour des tâches spécifiques.
- Légendage d’images et QA : apprentissage selon l’approche des grands modèles multimodaux de langage (LLM) existants afin de renforcer la compréhension spatiale et les capacités de raisonnement.
- Légendage vidéo et QA : permet de renforcer la compréhension temporelle et les capacités de raisonnement sur les données vidéo.
- Navigation UI : peut être optimisé pour les tâches de navigation sur interfaces web et mobiles afin d’atteindre de hautes performances.
- Manipulation robotique : avec un apprentissage supplémentaire pour le contrôle robotique, il montre des performances supérieures à celles des modèles de manipulation robotique existants tels qu’OpenVLA.
Biais, risques et limites
- Ce modèle n’a pas été conçu pour toutes les tâches downstream.
- Avant toute application à un cas d’usage spécifique, il faut évaluer et ajuster sa précision, sa sécurité et son équité.
- En particulier dans les scénarios à haut risque, il faut respecter les lois et réglementations applicables.
1 commentaires
Commentaires sur Hacker News