Muse Spark : le modèle de raisonnement multimodal de Meta qui s’étend vers une superintelligence personnelle

(ai.meta.com)

1 points par GN⁺ 24 일 전 | 1 commentaires | Partager sur WhatsApp

Muse Spark, développé par Meta Superintelligence Labs, est un modèle de raisonnement multimodal qui prend en charge l’usage d’outils, la chaîne de pensée visuelle et la collaboration multi-agents
Présenté comme une première étape vers la superintelligence personnelle (personal superintelligence), il est proposé à certains utilisateurs sous forme d’aperçu privé d’API sur meta.ai et dans l’application Meta AI
Le modèle se développe selon trois axes — préentraînement, apprentissage par renforcement et raisonnement au moment du test — et atteint une efficacité d’entraînement plus de 10 fois supérieure à celle de Llama 4
Grâce au mode Contemplating, il effectue des raisonnements complexes fondés sur des agents parallèles et met en œuvre des capacités avancées de réflexion au niveau de Gemini Deep Think et de GPT Pro
Meta vise à faire évoluer Muse Spark vers un modèle de superintelligence personnalisée réunissant à la fois sécurité et efficacité

Présentation de Muse Spark

Muse Spark est un modèle de raisonnement multimodal développé par Meta Superintelligence Labs, prenant en charge l’usage d’outils, la chaîne de pensée visuelle (visual chain of thought) et l’orchestration multi-agents
Il est présenté comme le premier résultat de la refonte globale de la recherche en IA chez Meta, ainsi qu’une première étape vers la superintelligence personnelle (personal superintelligence)
Meta poursuit des investissements d’envergure dans la recherche, l’entraînement des modèles et l’infrastructure, notamment le datacenter Hyperion
Il est actuellement disponible sur meta.ai et dans l’application Meta AI, avec un aperçu privé d’API pour certains utilisateurs

Fonctionnalités pour la superintelligence personnelle

Muse Spark affiche des performances compétitives en perception multimodale, raisonnement, santé et tâches agentiques
Meta continue d’investir pour combler les écarts de performance dans certains domaines, notamment les systèmes agentiques de long terme et les workflows de code
Le mode Contemplating fait fonctionner plusieurs agents en parallèle pour résoudre des problèmes complexes, en réponse aux modes de raisonnement avancé des modèles de pointe comme Gemini Deep Think et GPT Pro
- Il atteint 58 % sur Humanity’s Last Exam et 38 % sur FrontierScience Research
Le mode Contemplating sera déployé progressivement sur meta.ai

Principaux domaines d’application

Muse Spark pose les bases d’une superintelligence personnelle capable de comprendre et d’interagir avec l’univers de l’utilisateur
Grâce à l’intégration multimodale, il combine informations visuelles et outils pour obtenir de solides performances sur des problèmes visuels STEM, la reconnaissance d’entités ou la localisation
- Exemples : génération de mini-jeux, annotations dynamiques pour aider à résoudre des problèmes d’appareils électroménagers
Dans le domaine de la santé, Meta a construit des données d’entraînement en collaboration avec plus de 1 000 médecins, afin de permettre un raisonnement médical factuel et complet
- Il peut créer des affichages interactifs expliquant visuellement des informations de santé comme les nutriments d’un aliment ou les muscles activés pendant l’exercice
Les exemples de prompts montrent des interactions visuelles personnalisées, comme l’évaluation de postures de yoga, la visualisation de recommandations alimentaires ou des tutoriels d’utilisation d’une machine à café

Axes de mise à l’échelle

L’évolution de Muse Spark repose sur trois axes : préentraînement, apprentissage par renforcement et raisonnement au moment du test
Préentraînement
- Étape fondatrice des capacités multimodales de compréhension, de raisonnement et de code du modèle
- Au cours des neuf derniers mois, Meta a amélioré l’architecture du modèle, l’optimisation et la curation des données pour accroître fortement l’efficacité de calcul
- Le nombre de FLOPs d’entraînement nécessaires pour atteindre une même performance a été réduit de plus de 10 fois par rapport à Llama 4 Maverick, ce qui le rend plus efficace que les principaux modèles concurrents
Apprentissage par renforcement
- Étape qui étend les capacités du modèle après le préentraînement ; Meta y a résolu l’instabilité du RL à grande échelle afin d’obtenir des gains de performance prévisibles
- À mesure que la quantité de calcul RL (nombre d’étapes) augmente, les métriques pass@1 et pass@16 progressent de façon log-linéaire, améliorant simultanément la fiabilité et la diversité du modèle
- La précision augmente aussi sur des jeux d’évaluation non inclus dans l’entraînement, ce qui démontre ses capacités de généralisation
Raisonnement au moment du test
- Le modèle est entraîné à effectuer un processus de « réflexion » avant de répondre
- Pour utiliser efficacement les tokens, Meta emploie une pénalité de temps de réflexion (thinking time penalty) et la collaboration multi-agents
- L’entraînement RL pénalise le temps de réflexion tout en maximisant la précision, ce qui fait apparaître un phénomène de « compression de pensée » (thought compression)
  - Le modèle résout d’abord le problème avec moins de tokens, puis renforce ses performances via une réflexion de nouveau plus développée
- Le raisonnement parallèle multi-agents permet d’améliorer les performances sans augmenter la latence

Évaluation de la sécurité

Muse Spark disposant de larges capacités de raisonnement, y compris dans des domaines scientifiques à double usage, Meta a mené une évaluation approfondie de la sécurité avant son déploiement
Meta définit son modèle de menace, ses protocoles d’évaluation et ses critères de déploiement sur la base de l’Advanced AI Scaling Framework v2
Dans les domaines à haut risque comme les armes biologiques et chimiques, le modèle montre un comportement de refus robuste, renforcé par le filtrage des données, un post-entraînement axé sur la sécurité et des garde-fous au niveau système
Dans les domaines de la cybersécurité et de la perte de contrôle (Loss of Control), il ne possède pas les capacités autonomes nécessaires pour concrétiser des scénarios de risque
Globalement, l’évaluation conclut que Muse Spark reste dans les seuils de sécurité pour toutes les catégories de risques frontier mesurées
Une évaluation externe d’Apollo Research a observé que Muse Spark était le modèle présentant le plus haut niveau d’evaluation awareness
- Dans certaines situations, il reconnaît qu’il est en cours d’évaluation et en déduit qu’il doit se comporter honnêtement
- Toutefois, l’impact de cette conscience sur son comportement réel reste limité, avec seulement des effets marginaux observés dans certaines évaluations d’alignement sans lien avec les capacités à risque
- Meta ne considère pas cela comme un facteur bloquant pour la sortie et souligne seulement la nécessité de recherches supplémentaires

Conclusion

Muse Spark suit une trajectoire de mise à l’échelle prévisible et efficace et doit évoluer vers des modèles de superintelligence personnelle plus puissants
Meta prévoit de publier en continu des modèles améliorés, avec pour objectif de progresser vers l’ère de la superintelligence personnalisée

1 commentaires

GN⁺ 24 일 전

Commentaires sur Hacker News

Je ne comprends pas pourquoi les gens rabaissent ça. Si ce modèle est comparable à Opus 4.6 ou légèrement meilleur, cela signifie que Meta a réussi à créer un modèle capable de rivaliser avec les leaders de l’IA
Bien sûr, cela a sans doute coûté cher, mais il ne semble désormais plus si lointain de le faire évoluer en agent de code. Et du point de vue de Meta, pouvoir utiliser directement un modèle SATA dans l’ensemble de ses produits — IG, WhatsApp, VR, etc. — devrait aussi aider ses finances à long terme
- Je comprends aussi le scepticisme. Il y a eu auparavant l’affaire de l’exagération des benchmarks de llama 4. Ce modèle existait apparemment déjà depuis quelques mois, mais sa sortie aurait été repoussée parce qu’à l’époque il n’était qu’au niveau de Gemini 2.5 Pro
- Le marché des agents de code est déjà une priorité pour Anthropic et OpenAI. L’opportunité que Meta devrait viser se trouve plutôt du côté de l’IA grand public. OpenAI va bientôt devoir décider où allouer ses ressources entre les utilisateurs gratuits et l’entreprise
- Sur le papier des benchmarks, c’est un bon modèle, mais en utilité réelle pour la programmation, il n’atteint pas Opus. L’utilité dans les tâches de code quotidiennes ne se mesure pas entièrement avec les benchmarks. Cela dit, c’est une bonne chose qu’il y ait davantage de concurrence
- Dire qu’il « dépasse Opus 4.6 » n’est pas vrai
- Beaucoup de gens ont aussi une hostilité de principe envers Meta. Qu’elle soit justifiée ou non, beaucoup le rejettent simplement parce que c’est Meta
J’ai regardé l’exemple des Pelicans après avoir lu l’article de Simon Willison. Je l’ai aussi testé moi-même sur meta.ai et c’était plutôt convaincant. Le conteneur Code Interpreter Python et l’outil d’analyse d’images container.visual_grounding étaient particulièrement amusants
- Alexandr Wang a mentionné que cela pourrait plus tard être publié en open source, donc j’attends ça avec impatience
- Il semble que les outils disponibles varient selon les régions. Je n’ai pas la fonction visual_grounding et je n’ai accès qu’aux fonctionnalités de ce lien
- J’aimerais demander à Simon — parmi les modèles qu’il a vus jusqu’ici, lequel a le mieux réussi le « pélican à vélo » ?
- C’est dommage qu’il faille se connecter pour utiliser meta.ai. J’espère qu’il sera bientôt aussi pris en charge par Openrouter. Malgré tout, ça donne envie de l’essayer rapidement
J’ai l’impression que la situation actuelle ressemble au boom ferroviaire du XIXe siècle. Si plusieurs entreprises produisent des IA d’un niveau similaire, le fossé défensif (moat) disparaîtra, et les prix finiront par baisser. Elles pourraient ne jamais récupérer leurs investissements
- C’est pour cela, à mon avis, qu’Anthropic maintient des prix API élevés et limite les abonnements à ses propres produits. C’est une stratégie qui mise sur le fait que les utilisateurs non techniques restent plus longtemps
- De toute façon, ils sont tous étroitement liés aux gouvernements, donc ils recevront plus de soutien que ne le voudrait la simple logique du marché. Et même en cas d’échec, cela pourrait déboucher sur des modèles open weights. Mais eux aussi risquent d’être dépassés en quelques mois
- À l’inverse, on peut dire qu’aujourd’hui l’IA est aussi grand public que le smartphone et aussi disruptive que la machine à vapeur. Les entreprises de l’IA sont en train de devenir les plus grandes sociétés logicielles du monde, et le marché représente une opportunité de plusieurs milliers de milliards de dollars
- Le vrai moat, c’est l’accès à la puissance de calcul et à l’énergie. C’est pour cela qu’Elon Musk construit lui-même des usines de semi-conducteurs. On peut avoir plein de modèles sur HuggingFace, mais presque personne n’est réellement en mesure de les faire tourner
J’ai fait tourner des benchmarks internes et ce n’est pas du tout impressionnant. Ce n’est pas au niveau d’OpenAI, d’Anthropic ou de Gemini. Il y avait aussi beaucoup d’erreurs d’analyse sur des questions techniques
- Après davantage de tests, il y a beaucoup trop d’erreurs en mathématiques de base. En vérifiant avec Gemini, j’ai trouvé des erreurs sur presque tous les problèmes simples
- Cela dit, en multimodal, c’est plutôt bon. Suffisant pour 3 milliards de personnes, mais toujours en retrait dans les domaines scientifiques
- En réalité, je ne pense même pas que Gemini soit au niveau pour entrer dans cette conversation
J’ai cliqué sur le champ « Ask Meta AI… », puis il a enchaîné avec une demande de connexion et une procédure de liaison Facebook/Instagram. Ça donne une impression très typique de dark pattern. OpenAI a bien mieux géré cet aspect
Si Meta a vraiment retrouvé un modèle frontier, je suis maintenant curieux de voir leur orientation stratégique. Je me demande s’ils n’ont pas abandonné leur ancienne philosophie d’écosystème ouvert
llama4 a certes déçu, mais s’ils avaient maintenu cette stratégie, ils seraient probablement bien plus en avance qu’aujourd’hui. Les autres entreprises ont déjà construit un écosystème, pas Meta.
Pour revenir au centre de la conversation, ils devraient investir quelque chose comme 1 milliard de dollars dans un projet comme OpenCode afin de relancer un écosystème ouvert. Sinon, cela risque de rester un simple modèle interne fermé
- Ils n’ont peut-être même pas besoin d’un nouveau harnais open source. Anthropic l’a déjà offert gratuitement à la communauté
J’ai essayé pour la première fois un test de raisonnement visuel basé sur des plans, et parmi ChatGPT, Claude, Gemini et Grok, seul Gemini a réussi. Mais Muse Spark l’a fait parfaitement. Il a extrait la page pertinente du PDF, l’a affichée inline et a donné la bonne réponse
C’était peut-être juste de la chance pour l’instant, mais la première impression est excellente, donc je vais continuer à tester. En revanche, la politique d’utilisation des données de Meta est très agressive, donc ce n’est pas adapté à des documents sensibles.
Ce serait bien qu’un abonnement payant propose une option d’exclusion de l’entraînement sur les données. Un modèle gratuit qui se finance avec les données reste inquiétant
Ce modèle est proche de GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Pour le code, OpenAI est devant ; pour le raisonnement textuel, Google ; et pour le Humanity’s Last Exam, Anthropic mène. On peut malgré tout considérer que Meta est de retour comme laboratoire frontier.
On est maintenant dans une course à 3,5 chevaux, et j’attends le prochain modèle avec impatience. Plus de concurrence, c’est une bonne chose. On devrait sans doute désormais retirer Grok 4.2 du tableau
- J’ai utilisé Grok Code comme outil principal pendant un moment et c’était plutôt excellent. Les LLM dépendent au fond du contexte d’usage et du domaine. En particulier, pour les questions de santé, je continue d’utiliser Grok parce que les autres modèles esquivent souvent les réponses
- Cela dit, l’approche actuelle de Meta semble manquer de capacité de raisonnement et de résolution de problèmes sur le long terme. Son score HLE est inférieur à celui de Mythos d’Anthropic. Mais dans l’ensemble, c’est une évolution positive
« Personal » veut au fond dire que Meta utilise les données personnelles pour la publicité
- Et qu’au passage, elle absorbe aussi dans le modèle une sorte d’essence mentale de l’utilisateur
- Si je ne suis qu’une cible publicitaire, honnêtement, ça ne me dérange pas qu’on m’envoie autant de pubs qu’on veut
L’expression « visual chain of thought » est intéressante. On ne sait pas bien si cela signifie que l’utilisateur peut voir visuellement le processus de raisonnement, ou si le modèle raisonne à partir des images. Si c’est la seconde option, ce serait vraiment révolutionnaire
- Mais jusqu’ici, la plupart des chain of thought que j’ai vus ressemblaient surtout à un faux raisonnement convaincant en apparence. En réalité, le traitement interne se fait autrement
- En fait, ce type d’étapes visuelles intermédiaires apparaît déjà dans Gemini. Lors de tâches visuelles, il génère parfois des diagrammes intermédiaires, et des travaux de 2024 proposaient déjà des approches comme le turtle diagram

Muse Spark : le modèle de raisonnement multimodal de Meta qui s’étend vers une superintelligence personnelle

Présentation de Muse Spark

Fonctionnalités pour la superintelligence personnelle

Principaux domaines d’application

Axes de mise à l’échelle

Préentraînement

Apprentissage par renforcement

Raisonnement au moment du test

Évaluation de la sécurité

Conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News