3 points par GN⁺ 2024-11-21 | 1 commentaires | Partager sur WhatsApp
  • Niantic développe un grand modèle géospatial (LGM) qui exploite l’apprentissage automatique à grande échelle pour comprendre une scène et la relier à des millions d’autres scènes dans le monde entier
  • Les humains peuvent imaginer une structure sous différents angles grâce à leur compréhension spatiale, mais c’est une tâche difficile pour les machines
  • Le Visual Positioning System (VPS) de Niantic a entraîné plus de 5 milliards de réseaux neuronaux afin de fonctionner dans plus d’un million de lieux
  • Qu’est-ce qu’un grand modèle géospatial ?
    • Le LGM aide les ordinateurs à percevoir, comprendre et explorer le monde physique
    • À l’image des LLM, le LGM est construit à partir de vastes quantités de données brutes, permettant une compréhension géolocalisée de l’espace, des structures et des interactions physiques
    • Au-delà des modèles de vision 3D, le modèle géospatial est ancré dans des lieux géographiques précis et peut être mesuré avec des unités d’échelle exactes
  • État d’avancement des travaux de Niantic
    • Au cours des 5 dernières années, Niantic a construit son VPS afin de permettre aux utilisateurs de placer précisément du contenu numérique dans l’environnement physique
    • Le VPS est construit à partir des scans des utilisateurs, c’est-à-dire de données collectées du point de vue des piétons, y compris dans des lieux inaccessibles en voiture
    • Il existe actuellement 10 millions de lieux scannés dans le monde, et 1 million de nouveaux scans sont collectés chaque semaine
  • Des systèmes locaux vers une compréhension partagée
    • Les cartes neuronales actuelles sont des modèles géospatiaux exploitables, mais le LGM porte une vision qui dépasse les cartes locales indépendantes
    • Le LGM permet le partage de données entre modèles locaux et peut déduire l’arrière d’un bâtiment à partir d’un lieu donné
    • Cela met en œuvre une compréhension centralisée du monde fondée sur des données géospatiales et visuelles
  • Une compréhension proche de celle des humains
    • Les humains ont la capacité de reconnaître ce qu’ils ont vu sous d’autres angles
    • Une telle compréhension n’est réalisable de manière réaliste qu’au moyen de l’apprentissage automatique à grande échelle, et c’est l’objectif de Niantic
  • Vers des modèles fondamentaux complémentaires
    • Le LGM peut être utilisé à d’autres fins que le simple positionnement et ouvrir de nouvelles façons de représenter, manipuler et générer des scènes
    • Différents types de modèles fondamentaux se complètent mutuellement, et ces systèmes peuvent ainsi percevoir, comprendre et agir dans le monde physique
    • Niantic veut mener le développement des grands modèles géospatiaux afin d’offrir de nouvelles expériences aux utilisateurs

1 commentaires

 
GN⁺ 2024-11-21
Avis sur Hacker News
  • En tant que joueur de Pokémon GO, j’ai l’impression de fournir des données d’entraînement via le jeu, pendant qu’eux tirent profit de mon travail. J’ai arrêté de scanner des PokéStops, car l’effort demandé est trop important par rapport à la récompense. S’ils publiaient le modèle et les poids, j’aurais davantage le sentiment d’avoir contribué à l’intérêt général.

  • Je n’utilisais pas beaucoup la technologie AR de Pokémon GO parce qu’elle était lente, donc il est surprenant de voir qu’elle a progressé au point d’être utilisée pour entraîner un LGM. Sur le plan économique, les joueurs obtiennent un jeu gratuit, Niantic génère des revenus, et une nouvelle technologie est mise à disposition du monde.

  • Dans MyFitnessPal, lorsque les utilisateurs scannent des codes-barres, le bruit de fond est collecté pour servir de données d’entraînement. Cela permet d’obtenir des informations sur un garde-manger moyen, un réfrigérateur ou les rayons d’un supermarché.

  • Ce billet de blog et la réaction sur HN me semblent confus. Ils n’ont pas réellement entraîné le modèle, ils ont annoncé un projet. Ils disent avoir entraîné 50 millions de réseaux neuronaux, mais cela ne semble être qu’une partie de ce qu’ils faisaient déjà. On dirait plutôt un document de vision destiné à positionner Niantic comme une entreprise d’IA.

  • Certains avancent, sur le plan philosophique, que les données géospatiales devraient relever du bien public. Comme les données issues du crowdsourcing proviennent des gens ordinaires, je pense que les connaissances et les faits devraient devenir un bien commun.

  • Je ne pense pas que générer des scènes 3D en temps réel soit l’avenir de la cartographie. Les bâtiments, les routes, les panneaux, etc. sont très statiques, et il y a peu de changements majeurs pour la plupart des cas d’usage. Il serait plus utile de récupérer depuis le cloud un modèle précis.

  • L’idée de construire une nouvelle génération de modèles 3D par crowdsourcing a probablement émergé lors de réunions entre Google et Niantic. Ils ont acheté les droits de Pokémon pour la concrétiser.

  • Brian Maclendon (Niantic) a présenté des détails intéressants à ce sujet lors d’une intervention à Bellingfest.

  • Il est difficile de comprendre ce qu’est exactement le LGM. Cela ressemble davantage à une amélioration d’un modèle de vision chargé de prédire l’arrière des bâtiments qu’à quelque chose portant sur des données géospatiales. Les données d’entraînement proviennent d’images générées lorsqu’on attrape des Pokémon.

  • Certains estiment que la CIA y a probablement déjà accès. Des inquiétudes sur la vie privée avaient été soulevées il y a déjà plusieurs années.