1 points par GN⁺ 19 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Muse Spark, développé par Meta Superintelligence Labs, est un modèle de raisonnement multimodal qui prend en charge l’usage d’outils, la chaîne de pensée visuelle et la collaboration multi-agents
  • Présenté comme une première étape vers la superintelligence personnelle (personal superintelligence), il est proposé à certains utilisateurs sous forme d’aperçu privé d’API sur meta.ai et dans l’application Meta AI
  • Le modèle se développe selon trois axes — préentraînement, apprentissage par renforcement et raisonnement au moment du test — et atteint une efficacité d’entraînement plus de 10 fois supérieure à celle de Llama 4
  • Grâce au mode Contemplating, il effectue des raisonnements complexes fondés sur des agents parallèles et met en œuvre des capacités avancées de réflexion au niveau de Gemini Deep Think et de GPT Pro
  • Meta vise à faire évoluer Muse Spark vers un modèle de superintelligence personnalisée réunissant à la fois sécurité et efficacité

Présentation de Muse Spark

  • Muse Spark est un modèle de raisonnement multimodal développé par Meta Superintelligence Labs, prenant en charge l’usage d’outils, la chaîne de pensée visuelle (visual chain of thought) et l’orchestration multi-agents
  • Il est présenté comme le premier résultat de la refonte globale de la recherche en IA chez Meta, ainsi qu’une première étape vers la superintelligence personnelle (personal superintelligence)
  • Meta poursuit des investissements d’envergure dans la recherche, l’entraînement des modèles et l’infrastructure, notamment le datacenter Hyperion
  • Il est actuellement disponible sur meta.ai et dans l’application Meta AI, avec un aperçu privé d’API pour certains utilisateurs

Fonctionnalités pour la superintelligence personnelle

  • Muse Spark affiche des performances compétitives en perception multimodale, raisonnement, santé et tâches agentiques
  • Meta continue d’investir pour combler les écarts de performance dans certains domaines, notamment les systèmes agentiques de long terme et les workflows de code
  • Le mode Contemplating fait fonctionner plusieurs agents en parallèle pour résoudre des problèmes complexes, en réponse aux modes de raisonnement avancé des modèles de pointe comme Gemini Deep Think et GPT Pro
    • Il atteint 58 % sur Humanity’s Last Exam et 38 % sur FrontierScience Research
  • Le mode Contemplating sera déployé progressivement sur meta.ai

Principaux domaines d’application

  • Muse Spark pose les bases d’une superintelligence personnelle capable de comprendre et d’interagir avec l’univers de l’utilisateur
  • Grâce à l’intégration multimodale, il combine informations visuelles et outils pour obtenir de solides performances sur des problèmes visuels STEM, la reconnaissance d’entités ou la localisation
    • Exemples : génération de mini-jeux, annotations dynamiques pour aider à résoudre des problèmes d’appareils électroménagers
  • Dans le domaine de la santé, Meta a construit des données d’entraînement en collaboration avec plus de 1 000 médecins, afin de permettre un raisonnement médical factuel et complet
    • Il peut créer des affichages interactifs expliquant visuellement des informations de santé comme les nutriments d’un aliment ou les muscles activés pendant l’exercice
  • Les exemples de prompts montrent des interactions visuelles personnalisées, comme l’évaluation de postures de yoga, la visualisation de recommandations alimentaires ou des tutoriels d’utilisation d’une machine à café

Axes de mise à l’échelle

  • L’évolution de Muse Spark repose sur trois axes : préentraînement, apprentissage par renforcement et raisonnement au moment du test
  • Préentraînement

    • Étape fondatrice des capacités multimodales de compréhension, de raisonnement et de code du modèle
    • Au cours des neuf derniers mois, Meta a amélioré l’architecture du modèle, l’optimisation et la curation des données pour accroître fortement l’efficacité de calcul
    • Le nombre de FLOPs d’entraînement nécessaires pour atteindre une même performance a été réduit de plus de 10 fois par rapport à Llama 4 Maverick, ce qui le rend plus efficace que les principaux modèles concurrents
  • Apprentissage par renforcement

    • Étape qui étend les capacités du modèle après le préentraînement ; Meta y a résolu l’instabilité du RL à grande échelle afin d’obtenir des gains de performance prévisibles
    • À mesure que la quantité de calcul RL (nombre d’étapes) augmente, les métriques pass@1 et pass@16 progressent de façon log-linéaire, améliorant simultanément la fiabilité et la diversité du modèle
    • La précision augmente aussi sur des jeux d’évaluation non inclus dans l’entraînement, ce qui démontre ses capacités de généralisation
  • Raisonnement au moment du test

    • Le modèle est entraîné à effectuer un processus de « réflexion » avant de répondre
    • Pour utiliser efficacement les tokens, Meta emploie une pénalité de temps de réflexion (thinking time penalty) et la collaboration multi-agents
    • L’entraînement RL pénalise le temps de réflexion tout en maximisant la précision, ce qui fait apparaître un phénomène de « compression de pensée » (thought compression)
      • Le modèle résout d’abord le problème avec moins de tokens, puis renforce ses performances via une réflexion de nouveau plus développée
    • Le raisonnement parallèle multi-agents permet d’améliorer les performances sans augmenter la latence

Évaluation de la sécurité

  • Muse Spark disposant de larges capacités de raisonnement, y compris dans des domaines scientifiques à double usage, Meta a mené une évaluation approfondie de la sécurité avant son déploiement
  • Meta définit son modèle de menace, ses protocoles d’évaluation et ses critères de déploiement sur la base de l’Advanced AI Scaling Framework v2
  • Dans les domaines à haut risque comme les armes biologiques et chimiques, le modèle montre un comportement de refus robuste, renforcé par le filtrage des données, un post-entraînement axé sur la sécurité et des garde-fous au niveau système
  • Dans les domaines de la cybersécurité et de la perte de contrôle (Loss of Control), il ne possède pas les capacités autonomes nécessaires pour concrétiser des scénarios de risque
  • Globalement, l’évaluation conclut que Muse Spark reste dans les seuils de sécurité pour toutes les catégories de risques frontier mesurées
  • Une évaluation externe d’Apollo Research a observé que Muse Spark était le modèle présentant le plus haut niveau d’evaluation awareness
    • Dans certaines situations, il reconnaît qu’il est en cours d’évaluation et en déduit qu’il doit se comporter honnêtement
    • Toutefois, l’impact de cette conscience sur son comportement réel reste limité, avec seulement des effets marginaux observés dans certaines évaluations d’alignement sans lien avec les capacités à risque
    • Meta ne considère pas cela comme un facteur bloquant pour la sortie et souligne seulement la nécessité de recherches supplémentaires

Conclusion

  • Muse Spark suit une trajectoire de mise à l’échelle prévisible et efficace et doit évoluer vers des modèles de superintelligence personnelle plus puissants
  • Meta prévoit de publier en continu des modèles améliorés, avec pour objectif de progresser vers l’ère de la superintelligence personnalisée

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.