- Un modèle de monde génératif pour la simulation autonome à grande échelle, capable de reproduire en temps réel des environnements proches de la réalité
- Construit sur Genie 3, il peut recréer de manière réaliste des situations rares ou extrêmes (tornades, inondations, apparition d’animaux, etc.)
- La simulation peut être ajustée finement via le contrôle de la conduite, de la composition de scène et par langage, avec génération simultanée des données caméra et lidar
- Convertit des vidéos classiques ou de dashcam en simulation multi-capteurs pour reproduire fidèlement des scènes de conduite réelles
- Ce modèle est un outil clé pour la validation de la sécurité et l’extension du service, en permettant de se préparer à des situations presque impossibles à rencontrer dans le monde réel
Présentation du modèle mondial de Waymo
- Waymo Driver a parcouru environ 200 millions de miles en conduite entièrement autonome dans les principales villes américaines, ainsi que des milliards de miles en environnement virtuel
- Le système est conçu pour apprendre à l’avance des situations complexes difficiles à rencontrer sur route réelle
- Le modèle mondial de Waymo (Waymo World Model) est un système de génération de simulations hyperréalistes pour cette conduite virtuelle
- Il constitue l’un des trois piliers clés de l’écosystème IA de Waymo et sert de base à la démonstration de la sécurité
Architecture et fonctions basées sur Genie 3
- Il s’appuie sur Genie 3 de Google DeepMind et a été adapté aux besoins spécifiques de l’environnement de conduite
- Genie 3 est un modèle de monde généraliste capable de générer des environnements 3D réalistes et interactifs
- En exploitant la vaste connaissance du monde de Genie, il devient possible de simuler même des événements presque impossibles dans la réalité, comme une rencontre avec une tornade ou un éléphant
- La simulation peut être contrôlée avec précision via des prompts en langage naturel, des entrées de conduite et le placement d’éléments de scène
- Le système prend en charge une sortie multi-capteurs capable de générer à la fois des données caméra et lidar
Connaissance multimodale du monde
- Alors que les simulateurs de conduite autonome classiques sont entraînés uniquement sur des données collectées en interne, le modèle de Waymo exploite les vastes données vidéo préentraînées de Genie 3
- Il transfère une connaissance vidéo 2D vers une sortie 3D adaptée au système lidar de Waymo
- Les caméras excellent dans le rendu des détails visuels, tandis que le lidar est fort sur l’information de profondeur précise
- Il peut générer des scènes allant de la conduite quotidienne à des situations rares de long tail
-
Simulation de météo extrême et de catastrophes naturelles
- Génération de scènes telles qu’une traversée du Golden Gate Bridge enneigé, une rencontre avec une tornade, une banlieue inondée, des rues enneigées dans une ville tropicale ou une fuite en pleine zone d’incendie
-
Événements rares et critiques pour la sécurité
- Reproduction de scénarios liés à la sécurité comme des conducteurs agressifs, des véhicules heurtant des branches, des véhicules avec chargement instable ou des camions roulant à contresens
-
Objets de long tail et situations atypiques
- Simulation de rencontres avec des objets inhabituels comme des éléphants, des Texas longhorns, des lions, des piétons en costume de dinosaure ou d’immenses moulins à vent
Fonctions de contrôle de la simulation
- Le système peut être réglé de trois façons : contrôle des actions de conduite, contrôle de la composition de scène et contrôle par langage
-
Contrôle des actions de conduite
- Mise en œuvre d’un simulateur interactif qui réagit à des entrées de conduite spécifiques
- Exemple : tester le résultat d’une conduite plus proactive dans une situation donnée
- Il conserve une cohérence visuelle et un réalisme supérieurs à ceux de l’approche 3DGS (3D Gaussian Splats)
-
Contrôle de la composition de scène
- Il est possible de modifier librement la structure de la route, l’état des feux et le comportement des véhicules environnants
- Prise en charge de la création de scénarios personnalisés et de la transformation de l’environnement routier
-
Contrôle par langage
- Il est possible de modifier le moment de la journée, la météo et l’ensemble de la scène via des commandes textuelles
- Exemple : passage de l’aube au matin, au midi, au soir ou à la nuit
- Changement des conditions météorologiques : ciel couvert, brouillard, pluie, neige, temps clair, etc.
Conversion de vidéos en simulation
- Le système prend en entrée des vidéos de caméra standard ou de dashcam et les convertit en simulation multi-capteurs du point de vue de Waymo Driver
- Comme il s’appuie sur des vidéos réelles, le niveau de réalisme et de précision est élevé
- Exemples : conversion de vidéos tournées dans des lieux réels comme la Norvège, le parc national des Arches dans l’Utah ou la Death Valley en Californie
Inférence évolutive (Scalable Inference)
- Les simulations de scènes longues demandent beaucoup de calcul, mais des variantes optimisées du modèle permettent de réduire fortement la charge de calcul tout en maintenant une haute qualité
- Prise en charge de scénarios de conduite prolongés comme le passage dans des voies étroites, des intersections complexes ou des montées
- Exemples en lecture x4 : évitement d’un bouchon sur autoroute, conduite dans un quartier résidentiel complexe, évitement d’une moto en montée, demi-tour d’un SUV, etc.
Sécurité et extensibilité
- Le système permet de reproduire virtuellement à l’avance des situations presque impossibles dans le monde réel
- Il contribue à renforcer les standards de sécurité de Waymo Driver et à préparer l’extension du service vers de nouvelles zones et de nouveaux environnements
- Le projet a mobilisé de nombreux chercheurs de Waymo et de Google DeepMind
Aucun commentaire pour le moment.