Muse Spark : le modèle de raisonnement multimodal de Meta qui s’étend vers une superintelligence personnelle
(ai.meta.com)- Muse Spark, développé par Meta Superintelligence Labs, est un modèle de raisonnement multimodal qui prend en charge l’usage d’outils, la chaîne de pensée visuelle et la collaboration multi-agents
- Présenté comme une première étape vers la superintelligence personnelle (personal superintelligence), il est proposé à certains utilisateurs sous forme d’aperçu privé d’API sur meta.ai et dans l’application Meta AI
- Le modèle se développe selon trois axes — préentraînement, apprentissage par renforcement et raisonnement au moment du test — et atteint une efficacité d’entraînement plus de 10 fois supérieure à celle de Llama 4
- Grâce au mode Contemplating, il effectue des raisonnements complexes fondés sur des agents parallèles et met en œuvre des capacités avancées de réflexion au niveau de Gemini Deep Think et de GPT Pro
- Meta vise à faire évoluer Muse Spark vers un modèle de superintelligence personnalisée réunissant à la fois sécurité et efficacité
Présentation de Muse Spark
- Muse Spark est un modèle de raisonnement multimodal développé par Meta Superintelligence Labs, prenant en charge l’usage d’outils, la chaîne de pensée visuelle (visual chain of thought) et l’orchestration multi-agents
- Il est présenté comme le premier résultat de la refonte globale de la recherche en IA chez Meta, ainsi qu’une première étape vers la superintelligence personnelle (personal superintelligence)
- Meta poursuit des investissements d’envergure dans la recherche, l’entraînement des modèles et l’infrastructure, notamment le datacenter Hyperion
- Il est actuellement disponible sur meta.ai et dans l’application Meta AI, avec un aperçu privé d’API pour certains utilisateurs
Fonctionnalités pour la superintelligence personnelle
- Muse Spark affiche des performances compétitives en perception multimodale, raisonnement, santé et tâches agentiques
- Meta continue d’investir pour combler les écarts de performance dans certains domaines, notamment les systèmes agentiques de long terme et les workflows de code
- Le mode Contemplating fait fonctionner plusieurs agents en parallèle pour résoudre des problèmes complexes, en réponse aux modes de raisonnement avancé des modèles de pointe comme Gemini Deep Think et GPT Pro
- Il atteint 58 % sur Humanity’s Last Exam et 38 % sur FrontierScience Research
- Le mode Contemplating sera déployé progressivement sur meta.ai
Principaux domaines d’application
- Muse Spark pose les bases d’une superintelligence personnelle capable de comprendre et d’interagir avec l’univers de l’utilisateur
- Grâce à l’intégration multimodale, il combine informations visuelles et outils pour obtenir de solides performances sur des problèmes visuels STEM, la reconnaissance d’entités ou la localisation
- Exemples : génération de mini-jeux, annotations dynamiques pour aider à résoudre des problèmes d’appareils électroménagers
- Dans le domaine de la santé, Meta a construit des données d’entraînement en collaboration avec plus de 1 000 médecins, afin de permettre un raisonnement médical factuel et complet
- Il peut créer des affichages interactifs expliquant visuellement des informations de santé comme les nutriments d’un aliment ou les muscles activés pendant l’exercice
- Les exemples de prompts montrent des interactions visuelles personnalisées, comme l’évaluation de postures de yoga, la visualisation de recommandations alimentaires ou des tutoriels d’utilisation d’une machine à café
Axes de mise à l’échelle
- L’évolution de Muse Spark repose sur trois axes : préentraînement, apprentissage par renforcement et raisonnement au moment du test
-
Préentraînement
- Étape fondatrice des capacités multimodales de compréhension, de raisonnement et de code du modèle
- Au cours des neuf derniers mois, Meta a amélioré l’architecture du modèle, l’optimisation et la curation des données pour accroître fortement l’efficacité de calcul
- Le nombre de FLOPs d’entraînement nécessaires pour atteindre une même performance a été réduit de plus de 10 fois par rapport à Llama 4 Maverick, ce qui le rend plus efficace que les principaux modèles concurrents
-
Apprentissage par renforcement
- Étape qui étend les capacités du modèle après le préentraînement ; Meta y a résolu l’instabilité du RL à grande échelle afin d’obtenir des gains de performance prévisibles
- À mesure que la quantité de calcul RL (nombre d’étapes) augmente, les métriques pass@1 et pass@16 progressent de façon log-linéaire, améliorant simultanément la fiabilité et la diversité du modèle
- La précision augmente aussi sur des jeux d’évaluation non inclus dans l’entraînement, ce qui démontre ses capacités de généralisation
-
Raisonnement au moment du test
- Le modèle est entraîné à effectuer un processus de « réflexion » avant de répondre
- Pour utiliser efficacement les tokens, Meta emploie une pénalité de temps de réflexion (thinking time penalty) et la collaboration multi-agents
- L’entraînement RL pénalise le temps de réflexion tout en maximisant la précision, ce qui fait apparaître un phénomène de « compression de pensée » (thought compression)
- Le modèle résout d’abord le problème avec moins de tokens, puis renforce ses performances via une réflexion de nouveau plus développée
- Le raisonnement parallèle multi-agents permet d’améliorer les performances sans augmenter la latence
Évaluation de la sécurité
- Muse Spark disposant de larges capacités de raisonnement, y compris dans des domaines scientifiques à double usage, Meta a mené une évaluation approfondie de la sécurité avant son déploiement
- Meta définit son modèle de menace, ses protocoles d’évaluation et ses critères de déploiement sur la base de l’Advanced AI Scaling Framework v2
- Dans les domaines à haut risque comme les armes biologiques et chimiques, le modèle montre un comportement de refus robuste, renforcé par le filtrage des données, un post-entraînement axé sur la sécurité et des garde-fous au niveau système
- Dans les domaines de la cybersécurité et de la perte de contrôle (Loss of Control), il ne possède pas les capacités autonomes nécessaires pour concrétiser des scénarios de risque
- Globalement, l’évaluation conclut que Muse Spark reste dans les seuils de sécurité pour toutes les catégories de risques frontier mesurées
- Une évaluation externe d’Apollo Research a observé que Muse Spark était le modèle présentant le plus haut niveau d’evaluation awareness
- Dans certaines situations, il reconnaît qu’il est en cours d’évaluation et en déduit qu’il doit se comporter honnêtement
- Toutefois, l’impact de cette conscience sur son comportement réel reste limité, avec seulement des effets marginaux observés dans certaines évaluations d’alignement sans lien avec les capacités à risque
- Meta ne considère pas cela comme un facteur bloquant pour la sortie et souligne seulement la nécessité de recherches supplémentaires
Conclusion
- Muse Spark suit une trajectoire de mise à l’échelle prévisible et efficace et doit évoluer vers des modèles de superintelligence personnelle plus puissants
- Meta prévoit de publier en continu des modèles améliorés, avec pour objectif de progresser vers l’ère de la superintelligence personnalisée
1 commentaires
Commentaires sur Hacker News
Je ne comprends pas pourquoi les gens rabaissent ça. Si ce modèle est comparable à Opus 4.6 ou légèrement meilleur, cela signifie que Meta a réussi à créer un modèle capable de rivaliser avec les leaders de l’IA
Bien sûr, cela a sans doute coûté cher, mais il ne semble désormais plus si lointain de le faire évoluer en agent de code. Et du point de vue de Meta, pouvoir utiliser directement un modèle SATA dans l’ensemble de ses produits — IG, WhatsApp, VR, etc. — devrait aussi aider ses finances à long terme
J’ai regardé l’exemple des Pelicans après avoir lu l’article de Simon Willison. Je l’ai aussi testé moi-même sur meta.ai et c’était plutôt convaincant. Le conteneur Code Interpreter Python et l’outil d’analyse d’images container.visual_grounding étaient particulièrement amusants
J’ai l’impression que la situation actuelle ressemble au boom ferroviaire du XIXe siècle. Si plusieurs entreprises produisent des IA d’un niveau similaire, le fossé défensif (moat) disparaîtra, et les prix finiront par baisser. Elles pourraient ne jamais récupérer leurs investissements
J’ai fait tourner des benchmarks internes et ce n’est pas du tout impressionnant. Ce n’est pas au niveau d’OpenAI, d’Anthropic ou de Gemini. Il y avait aussi beaucoup d’erreurs d’analyse sur des questions techniques
J’ai cliqué sur le champ « Ask Meta AI… », puis il a enchaîné avec une demande de connexion et une procédure de liaison Facebook/Instagram. Ça donne une impression très typique de dark pattern. OpenAI a bien mieux géré cet aspect
Si Meta a vraiment retrouvé un modèle frontier, je suis maintenant curieux de voir leur orientation stratégique. Je me demande s’ils n’ont pas abandonné leur ancienne philosophie d’écosystème ouvert
llama4 a certes déçu, mais s’ils avaient maintenu cette stratégie, ils seraient probablement bien plus en avance qu’aujourd’hui. Les autres entreprises ont déjà construit un écosystème, pas Meta.
Pour revenir au centre de la conversation, ils devraient investir quelque chose comme 1 milliard de dollars dans un projet comme OpenCode afin de relancer un écosystème ouvert. Sinon, cela risque de rester un simple modèle interne fermé
J’ai essayé pour la première fois un test de raisonnement visuel basé sur des plans, et parmi ChatGPT, Claude, Gemini et Grok, seul Gemini a réussi. Mais Muse Spark l’a fait parfaitement. Il a extrait la page pertinente du PDF, l’a affichée inline et a donné la bonne réponse
C’était peut-être juste de la chance pour l’instant, mais la première impression est excellente, donc je vais continuer à tester. En revanche, la politique d’utilisation des données de Meta est très agressive, donc ce n’est pas adapté à des documents sensibles.
Ce serait bien qu’un abonnement payant propose une option d’exclusion de l’entraînement sur les données. Un modèle gratuit qui se finance avec les données reste inquiétant
Ce modèle est proche de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Pour le code, OpenAI est devant ; pour le raisonnement textuel, Google ; et pour le Humanity’s Last Exam, Anthropic mène. On peut malgré tout considérer que Meta est de retour comme laboratoire frontier.
On est maintenant dans une course à 3,5 chevaux, et j’attends le prochain modèle avec impatience. Plus de concurrence, c’est une bonne chose. On devrait sans doute désormais retirer Grok 4.2 du tableau
« Personal » veut au fond dire que Meta utilise les données personnelles pour la publicité
L’expression « visual chain of thought » est intéressante. On ne sait pas bien si cela signifie que l’utilisateur peut voir visuellement le processus de raisonnement, ou si le modèle raisonne à partir des images. Si c’est la seconde option, ce serait vraiment révolutionnaire