Magma - un modèle de base pour les agents IA multimodaux

(microsoft.github.io)

3 points par GN⁺ 2025-02-21 | 1 commentaires | Partager sur WhatsApp

Magma est le premier modèle de base capable d’interpréter des entrées multimodales et de les relier à l’environnement, ce qui lui permet de gérer des interactions complexes dans les mondes virtuel et réel
Au-delà de la simple compréhension d’images et de vidéos, il génère une planification visuelle et une exécution orientées objectifs pour accomplir diverses tâches d’agents IA
Il atteint des performances de pointe sur plusieurs tâches multimodales, notamment la navigation UI, la manipulation robotique et la compréhension d’images et de vidéos, en particulier la compréhension spatiale et le raisonnement
Méthode de préentraînement extensible : en apprenant à partir de données vidéo non étiquetées avec des données d’agents existantes, il obtient de solides performances de généralisation, adaptées aux applications réelles
Le code, le modèle et la démo de navigation UI seront publiés sur le MSR Forum (2025.02.25).

Objectifs de Magma

Intelligence langagière et spatio-temporelle :
- capacité à comprendre avec précision les images et les vidéos, puis à convertir cet acquis en plans d’action et en exécution orientés objectifs
Fonctionnement dans des environnements numériques et physiques :
- capable d’effectuer à la fois la navigation web (manipulation d’UI) et la manipulation robotique
- une IA capable de passer librement entre les environnements numériques et physiques, à la manière des humains
Pour cela, Magma a été entraîné grâce au développement d’un nouveau jeu de données d’apprentissage exploitant des données vidéo non étiquetées et des données d’agents existantes, ainsi qu’un framework de préentraînement intégrant texte, image et action

Méthode de préentraînement de Magma

Magma est entraîné via deux approches clés.
1️⃣ Exploitation de vastes données d’apprentissage hétérogènes
- En plus des données multimodales existantes, des données de navigation UI et des données de manipulation robotique, il apprend également à partir de grandes quantités de données vidéo non étiquetées collectées.
- En supprimant les mouvements de caméra et en extrayant des données d’action réelles, le modèle peut apprendre la prédiction et la planification d’actions à long terme.
2️⃣ Définition d’objectifs de préentraînement unifiés
- Le texte et l’action sont fondamentalement différents, et le défi consiste à les relier efficacement
- En introduisant de nouvelles techniques d’apprentissage comme Set-of-Mark et Trace-of-Mark, il construit une structure d’alignement puissante entre texte, image et action
  - Set-of-Mark (SoM) : permet un ancrage d’action efficace dans l’image, en prédisant des repères numériques sur des boutons cliquables ou sur le bras robotique dans des captures d’écran UI, des manipulations robotiques et des vidéos humaines.
  - Trace-of-Mark (ToM) : fournit une supervision pour la manipulation robotique et les actions humaines, afin que le modèle comprenne la dynamique temporelle des vidéos et prédise les états futurs avant d’agir.

Utilisation du modèle

Utilisation directe (sans fine-tuning)

Magma a été conçu pour la recherche et peut être utilisé des façons suivantes.

Génération de texte à partir d’images/vidéos : il peut générer des descriptions et des réponses à partir des images et du texte fournis en entrée.
Planification visuelle (Visual Planning) : il peut prédire une trajectoire d’actions futures pour atteindre un objectif, comme le déplacement d’un objet.
Fonctions d’agent :
- Navigation UI : par exemple, prédiction d’une action d’UI comme « cliquer sur le bouton de recherche »
- Manipulation robotique : prédiction de manipulations robotiques à 7 degrés de liberté (7 DoF)

Tâches downstream (avec fine-tuning)

Magma peut aussi être entraîné davantage pour des tâches spécifiques.

Légendage d’images et QA : apprentissage selon l’approche des grands modèles multimodaux de langage (LLM) existants afin de renforcer la compréhension spatiale et les capacités de raisonnement.
Légendage vidéo et QA : permet de renforcer la compréhension temporelle et les capacités de raisonnement sur les données vidéo.
Navigation UI : peut être optimisé pour les tâches de navigation sur interfaces web et mobiles afin d’atteindre de hautes performances.
Manipulation robotique : avec un apprentissage supplémentaire pour le contrôle robotique, il montre des performances supérieures à celles des modèles de manipulation robotique existants tels qu’OpenVLA.

Biais, risques et limites

Ce modèle n’a pas été conçu pour toutes les tâches downstream.
Avant toute application à un cas d’usage spécifique, il faut évaluer et ajuster sa précision, sa sécurité et son équité.
En particulier dans les scénarios à haut risque, il faut respecter les lois et réglementations applicables.

1 commentaires

GN⁺ 2025-02-21

Commentaires sur Hacker News

Merci pour l’intérêt porté au projet Magma. Nous allons publier progressivement le code d’inférence, d’entraînement, d’évaluation et de prétraitement des données, et tout devrait être terminé d’ici mardi prochain
La vitesse de progression des agents multimodaux est impressionnante. OpenVLA a été lancé en juin 2024 et représentait alors l’état de l’art. Huit mois plus tard, le taux de réussite est passé de 2/10 à 6/10 sur des tâches comme « Pick Place Hotdog Sausage »
Les robots industriels sont efficaces précisément parce qu’ils n’imitent pas le comportement humain. Il est donc difficile de comprendre en quoi il serait pertinent d’enseigner à un robot le comportement des humains. Les robots domestiques auront besoin d’outils efficaces. Il faudra probablement de nouvelles machines, différentes des lave-linge, fours et lave-vaisselle que nous utilisons aujourd’hui
Les capacités multimodales, en particulier la prédiction de l’action suivante, sont impressionnantes. J’attends de voir si cette fonctionnalité sera publiée en open source sur GitHub. Je me demande aussi pourquoi ce nom, Magma
C’est un modèle vraiment intéressant. J’ai hâte de l’essayer. Mais ce que je veux, c’est un modèle d’agent multimodal capable de générer des embeddings pour des modèles de contrôle humanoïde comme Meta motivo. Meta motivo est un modèle jouet entraîné sur un squelette SMPL, sans doigts, ce qui limite ses capacités. Il aurait été possible d’utiliser un modèle plus avancé comme SMPL-X, mais le manque de données de mouvement ouvertes incluant des mouvements précis des doigts rend difficile l’entraînement d’un modèle de manipulation robuste
La plupart des jeux de données de mouvement existants proviennent de configurations universitaires de motion capture et ne sont pas centrés sur les tâches de manipulation. Je pense que les progrès de la 3D HPE à partir de vidéos 2D permettront de combler cet écart. Avec l’accès à des milliers d’heures de vidéo, il serait possible de constituer un vaste jeu de données de mouvement couvrant une grande variété d’interactions réelles
Cela rendrait possibles les deux composants nécessaires pour entraîner un modèle d’agent capable de générer des embeddings exploitables par des modèles de contrôle qui modélisent avec précision les mouvements des mains et des articulations des doigts. Vu les progrès rapides de la 3D HPE SoTA à partir de vidéos 2D et l’immense volume de vidéos en ligne, je m’attends à voir dans un futur proche des robots humanoïdes dotés de bonnes capacités de manipulation
Dans la vidéo où une tasse est essuyée, la personne fait semblant de laver la tasse, mais semble ne pas vouloir se mouiller la main. Je me demande quand les modèles seront capables de saisir ce genre de subtilité
Je me demande pourquoi les modèles multimodaux ne génèrent pas eux-mêmes des images de manière flexible. On dirait qu’ils délèguent cette tâche à d’autres modèles. Ils ne semblent pas vraiment savoir ce qu’il y a dans les images qu’ils ont produites, même s’ils peuvent les modifier
Les agents multimodaux sont réputés pour échouer sur les tâches de longue durée. Je me demande comment Magma s’en sort
Je me demande s’il existe des modèles multimodaux entraînés au raisonnement
Je me demande s’il existe des recherches sur l’entraînement incrémental. Cela pourrait être utilisé sur des robots comme alternative au RAG