- Traduire les manuels visuels d’assemblage de Lego, composés d’images 2D, pour les rendre interprétables par une machine
- Le problème est traité comme une tâche de prédiction séquentielle : à chaque étape, le modèle lit le manuel, repère les composants à ajouter à la forme actuelle, puis infère la structure 3D
- Cela nécessite notamment de résoudre le problème de correspondance 2D-3D entre les images 2D du manuel et l’objet 3D réel, ainsi que l’inférence de la forme d’objets 3D jamais vus auparavant (
unseen)
- Présentation de MEPNet (Manual-to-Executable-Plan Network), un framework basé sur l’apprentissage pour résoudre ce problème
- L’idée centrale repose sur un module de détection de points clés 2D, un algorithme de projection 2D-3D pour des prédictions de haute précision, ainsi qu’une forte capacité de généralisation aux composants
unseen
1 commentaires
Ça me fait penser à la startup Brickit, qui prend en photo un tas de Lego et utilise l’IA pour trier les pièces et suggérer ce qu’on peut construire.