Meta dévoile Segment Anything Model 3 (SAM 3)

(ai.meta.com)

7 points par GN⁺ 2025-11-20 | 1 commentaires | Partager sur WhatsApp

Meta a dévoilé SAM 3, capable de trouver, segmenter et suivre les objets souhaités dans des images et des vidéos à partir de texte, d’images d’exemple et de prompts visuels
Avec les checkpoints du modèle, le jeu de données d’évaluation et le code de fine-tuning, l’entreprise propose aussi Segment Anything Playground, un environnement permettant à tout le monde d’expérimenter facilement
La publication d’un nouveau benchmark massif de segmentation de concepts, SA-Co, ainsi que de SAM 3D, élargit l’écosystème de segmentation de concepts à l’ensemble de la 2D et de la 3D
De nouvelles fonctions de génération et d’édition de médias fondées sur la segmentation d’objets sont en cours de déploiement dans les services de Meta, dont Marketplace, Instagram Edits et Meta AI
En tant que modèle intégrant la segmentation de concepts basée sur le texte et sur des exemples, il gagne en potentiel comme outil de perception généraliste dans la recherche, l’industrie, la conservation et la robotique

Présentation de SAM 3

Il s’agit d’un modèle unifié qui reçoit divers types de prompts — texte, exemples d’image, masques, boîtes, points — pour détecter, segmenter et suivre des concepts dans des images et des vidéos
- Il prend en charge nativement la segmentation en vocabulaire ouvert à partir de groupes nominaux courts
- Des prompts complexes comme “people sitting down but not holding a gift box” peuvent être traités en combinaison avec un MLLM
Il dépasse les limites des précédents SAM, contraints à des ensembles de labels fixes, en s’étendant à la segmentation de concepts arbitraires (promptable concept)
Le nouveau benchmark SA-Co (Segment Anything with Concepts) mesure les performances de reconnaissance de concepts à grande échelle dans les images et les vidéos

Fonctions principales

Prise en charge de la détection de concepts à partir de prompts textuels et de la segmentation de toutes les instances correspondantes
- Peut aussi traiter des descriptions fines comme “striped red umbrella”
Les exemples d’image (exemplars) permettent de définir un concept à partir d’un objet réel
Conservation des prompts par boîte/point/masque déjà proposés dans SAM 1 et 2
Utilisation d’un MLLM comme outil pour effectuer une exploration itérative de requêtes complexes (SAM 3 Agent)

Moteur de données

Mise en place d’un pipeline hybride de production de données combinant SAM 3 + humains + annotateur IA (basé sur Llama 3.2v)
- Légendage automatique → génération de labels textuels → génération de masques initiaux → validation par l’IA et par des humains
- Traitement 5 fois plus rapide sur les prompts négatifs (concept absent) et gain de vitesse de 36 % aussi sur les prompts positifs
Constitution d’un vaste jeu d’entraînement contenant plus de 4 millions de concepts uniques
Extension de la couverture des concepts rares grâce à une ontologie de concepts basée sur Wikipédia

Architecture du modèle

Les encodeurs texte/image reposent sur Meta Perception Encoder
La détection d’objets utilise DETR, et le suivi réemploie la configuration memory bank + tracker de SAM 2
Le point clé est la conception d’une recette d’apprentissage évitant les conflits pour exécuter plusieurs tâches (détection, suivi, segmentation) dans un seul modèle

Performances

cgF1 doublé par rapport aux modèles précédents sur les images et les vidéos
Résultats supérieurs à ceux de modèles spécialisés comme Gemini 2.5 Pro, GLEE, OWLv2 et LLMDet
Dans l’évaluation des préférences utilisateurs, les résultats de SAM 3 l’emportent avec un rapport de 3 pour 1
30 ms sur une image unique, et traitement quasi temps réel sur vidéo avec 5 objets
Des améliorations sont aussi observées en zero-shot sur LVIS, CountBench, etc.

Cas d’usage scientifiques et concrets

SA-FARI : jeu de données public incluant des vidéos de pièges photographiques de faune sauvage, avec plus de 100 espèces et plus de 10 000 vidéos
FathomNet : nouveau benchmark pour la segmentation d’instances d’organismes marins
Marketplace “View in Room” : visualisation d’aménagements intérieurs avec éclairage et mobilier, réalisée avec SAM 3 et SAM 3D
Fonction d’application d’effets vidéo basés sur les objets prévue dans Instagram Edits, l’app Meta AI et meta.ai

SAM 3D

Publication du modèle, du code et des données pour la reconstruction 3D d’objets et de personnes à partir d’une seule image
Fournit une grounded reconstruction prenant en compte le contexte spatial réel

Limites et travaux à venir

La généralisation zero-shot sur des concepts très spécialisés (comme platelet) reste limitée
- Une adaptation rapide est possible via fine-tuning avec peu de données
- Une recette de fine-tuning open source est fournie
Les phrases courtes sont prises en charge nativement, mais des descriptions complexes comme “top shelf second to last book” nécessitent une combinaison avec un MLLM
Dans la vidéo, le coût de traitement augmente linéairement avec le nombre d’objets
- Le partage d’informations relationnelles entre objets constitue une piste d’amélioration pour la suite

Segment Anything Playground

Plateforme web permettant d’expérimenter SAM 3 sans connaissances techniques
- Propose des modèles prêts à l’emploi pour pixeliser les visages, plaques d’immatriculation ou écrans, créer un spotlight, des motion trails ou agrandir un objet précis
- Peut aussi servir à l’annotation de données et aux stress tests
Fournit également une segmentation et un suivi stables sur des vidéos à la première personne capturées avec le wearable Aria Gen 2
- Peut être utilisé pour la recherche en robotique et en perception à partir du point de vue humain

1 commentaires

GN⁺ 2025-11-20

Avis Hacker News

Merci à Meta de continuer à contribuer à l’open source et de publier ce type de modèles
Je sais qu’il existe des critiques envers l’entreprise, mais ce genre d’initiative profite à tout le monde
- Je suis d’accord. J’avais signalé une faille de sécurité vers 2005, et à l’époque la culture de l’entreprise était différente
  Aujourd’hui, on dirait qu’elle a beaucoup évolué vers une approche plus centrée sur la communauté
- Je n’aime pas trop le versant réseaux sociaux, mais il faut reconnaître à Meta ses publications de modèles
  Les autres grands labos ne publient pas leurs modèles de cette manière
À première vue, ce modèle est incroyablement performant
La détection textuelle en “zero-shot” est très au-dessus de la génération précédente ou des VLM récents comme Gemini et Qwen
Avec une supervision humaine, il pourrait tout à fait servir de modèle enseignant
J’avais auparavant ajusté YOLO pour détecter des prises d’escalade, et SAM3 atteint 90 % de ce résultat sans entraînement
En revanche, il rate les prises en bois à faible contraste ou les petits footholds
- Tu as déjà travaillé sur quelque chose comme l’app Stokt ? Elle est assez connue dans le milieu de l’escalade aujourd’hui
- Je travaille sur une plateforme qui annote un milliard d’images, et je pense que SAM3 pourrait en automatiser plus de 90 %
  On est en train de passer d’un schéma où l’humain aide le modèle à un schéma où le modèle aide l’humain
  Un article à ce sujet est disponible sur le blog Roboflow
Le générateur de maillages 3D est vraiment impressionnant
La démo SAM3D montre qu’il gère bien aussi la séparation d’objets occultés, comme une personne assise sur une chaise, et qu’il est rapide
- C’est vraiment impressionnant. Mais peut-on exporter directement le maillage 3D ?
  Moi, je n’ai pu récupérer que la vidéo ; je me demande s’il faut acheter des jetons
Mon cas d’usage concerne le suivi de motifs sur des cartes de circuits imprimés, et le modèle reste encore faible sur ce point
Il traite bien des images comme un cheval sur une plage, mais il est moins adapté aux données industrielles
Le fine-tuning améliorerait sans doute les choses, mais je ne l’ai pas encore essayé
- Cas intéressant. Tu pourrais partager un lien d’exemple utile comme référence ?
J’ai essayé SAM3 pour la suppression de fond sur des dessins d’enfants
(présentation du projet lié)
Mais BiRefNet v2 reste encore légèrement plus précis
SAM3 est un peu imprécis quand il découpe le long des traits, et il laisse parfois des zones blanches du papier
Malgré tout, SAM3 va au-delà d’une simple suppression de fond : il a une capacité à reconnaître le sens du dessin
On pourrait imaginer reconnaître les dessins des enfants et les relier à des actions dans un jeu
- C’est intéressant d’avoir testé la suppression de fond avec BiRefNet
  Tu penses que c’est actuellement le modèle le plus performant ? Je serais curieux de connaître d’autres alternatives
J’aime bien voir dans la liste des auteurs du papier des mentions comme “Core contributor (Alphabetical, Equal Contribution)”
Cette mise en avant égalitaire des contributeurs est marquante
Ces cinq dernières années, la vitesse des progrès en computer vision a été lente
Grâce aux LLM, la compréhension du langage s’est rapprochée du niveau humain, mais la vision reste encore en retrait
La segmentation d’objets ou la généralisation aux images scientifiques restent difficiles, et on a l’impression qu’il manque quelque chose malgré des données abondantes
Il faudra peut-être de l’agentivité dans des environnements 3D ou des signaux d’apprentissage plus riches
- Je ne suis pas expert, mais j’ai l’impression qu’il manque un world model
  Les humains ne jugent pas seulement à partir des informations visuelles : ils complètent avec le contexte et l’expérience
  Par exemple, quand on voit une forme sombre sur une route la nuit, on déduit à partir de l’expérience passée ou des informations autour si c’est un cheval ou une clôture
  Ce type de raisonnement contextuel fait défaut aux modèles actuels
- Dire que « les LLM comprennent le texte au niveau humain » a encore ses limites
Mon domaine, c’est la segmentation volumique 3D en imagerie médicale
J’ai essayé SAM2 avec une approche en tranches 2D, mais il était moins compétitif que le standard actuel, nnUNet
- Unet est le modèle le plus utilisé en imagerie médicale depuis dix ans
  Mais je pense que la combinaison LLM + VLM peut ouvrir une nouvelle voie
  J’ai d’ailleurs testé cette démo, et ça marchait plutôt bien
SAM3 est un modèle remarquable
Il peut déjà être utilisé de façon plus interactive sur chat.vlm.run,
et combiné avec SAM et d’autres modèles de vision sur le nouveau modèle Orion de notre équipe
Des fonctions de segmentation et suivi vidéo seront ajoutées bientôt
- J’ai effectivement testé, et on pouvait segmenter une personne et un chien dans la même session de chat
  Exemple de résultat
Avec une latence moyenne de 4 secondes, j’ai l’impression que ça reste compliqué pour la vidéo en temps réel
(la source est un article connexe sur roboflow.com)
- Ce chiffre est probablement lié aux ressources de calcul
  D’après le blog, sur un GPU H200, le traitement d’une seule image contenant plus de 100 objets ne prend que 30 ms

Meta dévoile Segment Anything Model 3 (SAM 3)

Présentation de SAM 3

Fonctions principales

Moteur de données

Architecture du modèle

Performances

Cas d’usage scientifiques et concrets

SAM 3D

Limites et travaux à venir

Segment Anything Playground

À lire aussi

1 commentaires

Avis Hacker News