5 points par xguru 2022-07-29 | 1 commentaires | Partager sur WhatsApp
  • Traduire les manuels visuels d’assemblage de Lego, composés d’images 2D, pour les rendre interprétables par une machine
  • Le problème est traité comme une tâche de prédiction séquentielle : à chaque étape, le modèle lit le manuel, repère les composants à ajouter à la forme actuelle, puis infère la structure 3D
  • Cela nécessite notamment de résoudre le problème de correspondance 2D-3D entre les images 2D du manuel et l’objet 3D réel, ainsi que l’inférence de la forme d’objets 3D jamais vus auparavant (unseen)
  • Présentation de MEPNet (Manual-to-Executable-Plan Network), un framework basé sur l’apprentissage pour résoudre ce problème
  • L’idée centrale repose sur un module de détection de points clés 2D, un algorithme de projection 2D-3D pour des prédictions de haute précision, ainsi qu’une forte capacité de généralisation aux composants unseen