- L’équipe de recherche en IA d’Apple a développé un nouveau modèle, Depth Pro, qui pourrait faire progresser de manière significative la façon dont les machines perçoivent la profondeur
- Il pourrait apporter des innovations dans divers secteurs, de la réalité augmentée aux véhicules autonomes
Principales caractéristiques de Depth Pro
- Génère à très haute vitesse des cartes de profondeur 3D détaillées à partir d’une seule image 2D, sans dépendre des données de caméra auparavant nécessaires
- Constitue une avancée majeure dans le domaine de l’estimation de profondeur monoculaire (
monocular depth estimation)
- Peut être largement appliqué dans les domaines où la perception spatiale en temps réel est essentielle
Estimation de profondeur rapide et précise, même sans métadonnées
- L’estimation de profondeur monoculaire était traditionnellement une tâche difficile, car elle nécessitait plusieurs images ou des métadonnées comme la distance focale
- Pourtant, Depth Pro contourne ces exigences et génère une carte de profondeur haute résolution en 0,3 seconde sur un GPU standard
- Il produit des cartes de 2,25 mégapixels avec une netteté exceptionnelle, en capturant des détails fins comme des cheveux ou des plantes, souvent négligés par d’autres méthodes
- Les chercheurs expliquent que « ces propriétés ont été rendues possibles par plusieurs contributions techniques, notamment un vision transformer multi-échelle efficace pour la prédiction dense »
- Cette architecture peut traiter simultanément le contexte global de l’image et les détails les plus fins, marquant un bond considérable par rapport aux modèles précédents, plus lents et moins précis
Ce qui distingue la metric depth et le zero-shot learning
- Ce qui différencie vraiment Depth Pro, c’est sa capacité de
metric depth, qui lui permet d’estimer à la fois la profondeur relative et la profondeur absolue
- Cela signifie que le modèle peut fournir des mesures réelles, ce qui est indispensable pour des applications comme la réalité augmentée (AR), où des objets virtuels doivent être placés avec précision dans l’espace physique
- Depth Pro n’a pas besoin d’un entraînement massif sur des jeux de données spécialisés par domaine pour produire des prédictions précises, ce qu’on appelle le
zero-shot learning
- Cela rend le modèle extrêmement polyvalent, car il peut être appliqué à divers types d’images sans données spécifiques à chaque caméra, généralement nécessaires pour les modèles d’estimation de profondeur
- Les auteurs expliquent que « Depth Pro génère des cartes de
metric depth à échelle absolue pour des images arbitraires “in the wild”, sans métadonnées telles que les paramètres intrinsèques de la caméra »
- Cette flexibilité ouvre de nombreuses possibilités, de l’amélioration des expériences AR à une meilleure détection et évitement des obstacles pour les véhicules autonomes
Cas d’usage concrets
- Dans l’e-commerce, il peut montrer à un consommateur, via la caméra de son smartphone, comment un meuble s’intégrerait dans une pièce
- À partir d’une seule caméra embarquée sur un véhicule autonome, il peut générer en temps réel des cartes de profondeur haute résolution, contribuant à une meilleure perception de l’environnement de conduite et à une sécurité accrue
- Les chercheurs soulignent que « dans l’idéal, il faut générer dans ce régime zero-shot des cartes de
metric depth capables de reproduire fidèlement la forme des objets, l’agencement de la scène et l’échelle absolue », en insistant sur son potentiel pour réduire le temps et les coûts de l’entraînement des modèles d’IA traditionnels
Résoudre les défis majeurs de l’estimation de profondeur
- L’un des problèmes les plus difficiles de l’estimation de profondeur est le phénomène appelé « flying pixels »
- Les « flying pixels » désignent des pixels qui semblent flotter dans l’air à cause d’erreurs de cartographie de profondeur
- Depth Pro s’attaque frontalement à ce problème, ce qui le rend particulièrement efficace pour des applications où la précision est cruciale, comme la reconstruction 3D ou les environnements virtuels
- Depth Pro se distingue aussi par ses excellentes performances dans le suivi des contours, avec une capacité à décrire nettement les objets et leurs bords supérieure à celle des modèles précédents
- Les chercheurs affirment que Depth Pro « dépasse les autres systèmes d’un facteur multiplicatif en précision des contours », ce qui est essentiel pour les applications nécessitant une segmentation d’objets précise, comme le matting d’image ou l’imagerie médicale
Publication open source et extensibilité
- Apple a publié Depth Pro en open source afin d’accélérer l’adoption de la technologie
- Le code et les poids de modèle préentraînés sont disponibles sur GitHub, afin que développeurs et chercheurs puissent facilement expérimenter et améliorer le système
- Apple encourage l’exploration de son potentiel dans des domaines variés comme la robotique, l’industrie manufacturière et la santé
L’avenir de la perception de profondeur par l’IA
- Depth Pro établit une nouvelle référence en matière de vitesse et de précision dans l’estimation de profondeur monoculaire
- Sa capacité à générer, à partir d’une seule image, des cartes de profondeur en temps réel et de haute qualité devrait avoir un impact majeur sur l’ensemble des secteurs qui dépendent de la perception spatiale
- Proposé en open source, Depth Pro devrait s’imposer comme une technologie clé dans de nombreux secteurs, de la conduite autonome à la réalité augmentée
5 commentaires
On dirait un peu que ça devrait être Meta qui est écrit à la place d’Apple...
Ça me fait penser à Microsoft Photosynth (2006).
Chez Tesla AI, il me semble qu’ils résolvent ce type de problème de perception de la profondeur en implémentant un modèle d’occupancy network à l’aide de la vue multi-angle et de NeRF. Je suis curieux de voir comment ce type d’entreprise va exploiter ce modèle au niveau commercial et continuer à l’améliorer.
waouh..
Alors que les LLM étaient ultra tendance, Apple était resté plutôt discret, et je me demandais bien ce qu’ils faisaient — apparemment, c’est là-dessus qu’ils creusaient.