- Meta a dévoilé SAM 3, capable de trouver, segmenter et suivre les objets souhaités dans des images et des vidéos à partir de texte, d’images d’exemple et de prompts visuels
- Avec les checkpoints du modèle, le jeu de données d’évaluation et le code de fine-tuning, l’entreprise propose aussi Segment Anything Playground, un environnement permettant à tout le monde d’expérimenter facilement
- La publication d’un nouveau benchmark massif de segmentation de concepts, SA-Co, ainsi que de SAM 3D, élargit l’écosystème de segmentation de concepts à l’ensemble de la 2D et de la 3D
- De nouvelles fonctions de génération et d’édition de médias fondées sur la segmentation d’objets sont en cours de déploiement dans les services de Meta, dont Marketplace, Instagram Edits et Meta AI
- En tant que modèle intégrant la segmentation de concepts basée sur le texte et sur des exemples, il gagne en potentiel comme outil de perception généraliste dans la recherche, l’industrie, la conservation et la robotique
Présentation de SAM 3
- Il s’agit d’un modèle unifié qui reçoit divers types de prompts — texte, exemples d’image, masques, boîtes, points — pour détecter, segmenter et suivre des concepts dans des images et des vidéos
- Il prend en charge nativement la segmentation en vocabulaire ouvert à partir de groupes nominaux courts
- Des prompts complexes comme “people sitting down but not holding a gift box” peuvent être traités en combinaison avec un MLLM
- Il dépasse les limites des précédents SAM, contraints à des ensembles de labels fixes, en s’étendant à la segmentation de concepts arbitraires (promptable concept)
- Le nouveau benchmark SA-Co (Segment Anything with Concepts) mesure les performances de reconnaissance de concepts à grande échelle dans les images et les vidéos
Fonctions principales
- Prise en charge de la détection de concepts à partir de prompts textuels et de la segmentation de toutes les instances correspondantes
- Peut aussi traiter des descriptions fines comme “striped red umbrella”
- Les exemples d’image (exemplars) permettent de définir un concept à partir d’un objet réel
- Conservation des prompts par boîte/point/masque déjà proposés dans SAM 1 et 2
- Utilisation d’un MLLM comme outil pour effectuer une exploration itérative de requêtes complexes (SAM 3 Agent)
Moteur de données
- Mise en place d’un pipeline hybride de production de données combinant SAM 3 + humains + annotateur IA (basé sur Llama 3.2v)
- Légendage automatique → génération de labels textuels → génération de masques initiaux → validation par l’IA et par des humains
- Traitement 5 fois plus rapide sur les prompts négatifs (concept absent) et gain de vitesse de 36 % aussi sur les prompts positifs
- Constitution d’un vaste jeu d’entraînement contenant plus de 4 millions de concepts uniques
- Extension de la couverture des concepts rares grâce à une ontologie de concepts basée sur Wikipédia
Architecture du modèle
- Les encodeurs texte/image reposent sur Meta Perception Encoder
- La détection d’objets utilise DETR, et le suivi réemploie la configuration memory bank + tracker de SAM 2
- Le point clé est la conception d’une recette d’apprentissage évitant les conflits pour exécuter plusieurs tâches (détection, suivi, segmentation) dans un seul modèle
Performances
- cgF1 doublé par rapport aux modèles précédents sur les images et les vidéos
- Résultats supérieurs à ceux de modèles spécialisés comme Gemini 2.5 Pro, GLEE, OWLv2 et LLMDet
- Dans l’évaluation des préférences utilisateurs, les résultats de SAM 3 l’emportent avec un rapport de 3 pour 1
- 30 ms sur une image unique, et traitement quasi temps réel sur vidéo avec 5 objets
- Des améliorations sont aussi observées en zero-shot sur LVIS, CountBench, etc.
Cas d’usage scientifiques et concrets
- SA-FARI : jeu de données public incluant des vidéos de pièges photographiques de faune sauvage, avec plus de 100 espèces et plus de 10 000 vidéos
- FathomNet : nouveau benchmark pour la segmentation d’instances d’organismes marins
- Marketplace “View in Room” : visualisation d’aménagements intérieurs avec éclairage et mobilier, réalisée avec SAM 3 et SAM 3D
- Fonction d’application d’effets vidéo basés sur les objets prévue dans Instagram Edits, l’app Meta AI et meta.ai
SAM 3D
- Publication du modèle, du code et des données pour la reconstruction 3D d’objets et de personnes à partir d’une seule image
- Fournit une grounded reconstruction prenant en compte le contexte spatial réel
Limites et travaux à venir
- La généralisation zero-shot sur des concepts très spécialisés (comme platelet) reste limitée
- Une adaptation rapide est possible via fine-tuning avec peu de données
- Une recette de fine-tuning open source est fournie
- Les phrases courtes sont prises en charge nativement, mais des descriptions complexes comme “top shelf second to last book” nécessitent une combinaison avec un MLLM
- Dans la vidéo, le coût de traitement augmente linéairement avec le nombre d’objets
- Le partage d’informations relationnelles entre objets constitue une piste d’amélioration pour la suite
Segment Anything Playground
- Plateforme web permettant d’expérimenter SAM 3 sans connaissances techniques
- Propose des modèles prêts à l’emploi pour pixeliser les visages, plaques d’immatriculation ou écrans, créer un spotlight, des motion trails ou agrandir un objet précis
- Peut aussi servir à l’annotation de données et aux stress tests
- Fournit également une segmentation et un suivi stables sur des vidéos à la première personne capturées avec le wearable Aria Gen 2
- Peut être utilisé pour la recherche en robotique et en perception à partir du point de vue humain
1 commentaires
Avis Hacker News
Merci à Meta de continuer à contribuer à l’open source et de publier ce type de modèles
Je sais qu’il existe des critiques envers l’entreprise, mais ce genre d’initiative profite à tout le monde
Aujourd’hui, on dirait qu’elle a beaucoup évolué vers une approche plus centrée sur la communauté
Les autres grands labos ne publient pas leurs modèles de cette manière
À première vue, ce modèle est incroyablement performant
La détection textuelle en “zero-shot” est très au-dessus de la génération précédente ou des VLM récents comme Gemini et Qwen
Avec une supervision humaine, il pourrait tout à fait servir de modèle enseignant
J’avais auparavant ajusté YOLO pour détecter des prises d’escalade, et SAM3 atteint 90 % de ce résultat sans entraînement
En revanche, il rate les prises en bois à faible contraste ou les petits footholds
On est en train de passer d’un schéma où l’humain aide le modèle à un schéma où le modèle aide l’humain
Un article à ce sujet est disponible sur le blog Roboflow
Le générateur de maillages 3D est vraiment impressionnant
La démo SAM3D montre qu’il gère bien aussi la séparation d’objets occultés, comme une personne assise sur une chaise, et qu’il est rapide
Moi, je n’ai pu récupérer que la vidéo ; je me demande s’il faut acheter des jetons
Mon cas d’usage concerne le suivi de motifs sur des cartes de circuits imprimés, et le modèle reste encore faible sur ce point
Il traite bien des images comme un cheval sur une plage, mais il est moins adapté aux données industrielles
Le fine-tuning améliorerait sans doute les choses, mais je ne l’ai pas encore essayé
J’ai essayé SAM3 pour la suppression de fond sur des dessins d’enfants
(présentation du projet lié)
Mais BiRefNet v2 reste encore légèrement plus précis
SAM3 est un peu imprécis quand il découpe le long des traits, et il laisse parfois des zones blanches du papier
Malgré tout, SAM3 va au-delà d’une simple suppression de fond : il a une capacité à reconnaître le sens du dessin
On pourrait imaginer reconnaître les dessins des enfants et les relier à des actions dans un jeu
Tu penses que c’est actuellement le modèle le plus performant ? Je serais curieux de connaître d’autres alternatives
J’aime bien voir dans la liste des auteurs du papier des mentions comme “Core contributor (Alphabetical, Equal Contribution)”
Cette mise en avant égalitaire des contributeurs est marquante
Ces cinq dernières années, la vitesse des progrès en computer vision a été lente
Grâce aux LLM, la compréhension du langage s’est rapprochée du niveau humain, mais la vision reste encore en retrait
La segmentation d’objets ou la généralisation aux images scientifiques restent difficiles, et on a l’impression qu’il manque quelque chose malgré des données abondantes
Il faudra peut-être de l’agentivité dans des environnements 3D ou des signaux d’apprentissage plus riches
Les humains ne jugent pas seulement à partir des informations visuelles : ils complètent avec le contexte et l’expérience
Par exemple, quand on voit une forme sombre sur une route la nuit, on déduit à partir de l’expérience passée ou des informations autour si c’est un cheval ou une clôture
Ce type de raisonnement contextuel fait défaut aux modèles actuels
Mon domaine, c’est la segmentation volumique 3D en imagerie médicale
J’ai essayé SAM2 avec une approche en tranches 2D, mais il était moins compétitif que le standard actuel, nnUNet
Mais je pense que la combinaison LLM + VLM peut ouvrir une nouvelle voie
J’ai d’ailleurs testé cette démo, et ça marchait plutôt bien
SAM3 est un modèle remarquable
Il peut déjà être utilisé de façon plus interactive sur chat.vlm.run,
et combiné avec SAM et d’autres modèles de vision sur le nouveau modèle Orion de notre équipe
Des fonctions de segmentation et suivi vidéo seront ajoutées bientôt
Exemple de résultat
Avec une latence moyenne de 4 secondes, j’ai l’impression que ça reste compliqué pour la vidéo en temps réel
(la source est un article connexe sur roboflow.com)
D’après le blog, sur un GPU H200, le traitement d’une seule image contenant plus de 100 objets ne prend que 30 ms