Waymo dévoile EMMA, un modèle multimodal end-to-end pour la conduite autonome

EMMA : End-to-End Multimodal Model for Autonomous Driving
Exploite le LLM multimodal Gemini de Google pour générer directement la trajectoire future du véhicule à partir des données des capteurs
Améliore la compréhension des situations routières grâce à un entraînement et un fine-tuning spécialisés pour la conduite autonome

Principaux éléments de la recherche

Montre comment les modèles multimodaux peuvent être appliqués à la conduite autonome
Explore les avantages et les limites d’une approche end-to-end
Met en avant les bénéfices de l’exploitation des connaissances multimodales sur le monde
- Utile aussi pour les tâches de conduite autonome nécessitant compréhension spatiale et capacités de raisonnement
Démontre des effets positifs de transfert d’apprentissage sur plusieurs tâches majeures de conduite autonome
- L’apprentissage conjoint de la planification de trajectoire, de la reconnaissance d’objets et de la compréhension du graphe routier améliore les performances par rapport à un entraînement séparé
- Suggère que l’intégration d’un plus grand nombre de tâches clés de conduite autonome de manière similaire constitue une piste de recherche prometteuse

Présentation d’EMMA

EMMA reflète la tendance de la recherche en IA à intégrer les grands modèles et techniques d’apprentissage multimodal dans davantage de domaines
Basé sur Gemini, le modèle est spécialisé pour des tâches de conduite autonome telles que la planification de trajectoire et la reconnaissance d’objets 3D

Principales caractéristiques :

Apprentissage end-to-end
- Traite les entrées caméra et textuelles afin de produire divers résultats comme la trajectoire, les objets reconnus et les éléments du graphe routier
Espace linguistique unifié
- Représente les entrées et sorties non issues des capteurs sous forme de texte en langage naturel afin d’exploiter au maximum les connaissances du monde de Gemini
Raisonnement en chaîne de pensée
- Améliore le processus de décision grâce au raisonnement en chaîne de pensée, augmente de 6,7 % les performances de planification end-to-end et fournit une base interprétable pour les décisions de conduite

Principaux résultats

Atteint des performances de premier plan sur des benchmarks publics et internes
- Notamment en planification de trajectoire end-to-end, reconnaissance d’objets 3D à partir de caméras, prédiction du graphe routier et compréhension de scène
Les performances progressent grâce à l’apprentissage conjoint
- Un seul modèle EMMA peut générer simultanément les sorties de plusieurs tâches avec des performances équivalentes ou supérieures à celles de modèles entraînés séparément
- Montre son potentiel comme modèle généraliste exploitable dans de nombreuses applications de conduite autonome

Limites

Le traitement des longues séquences vidéo reste limité, ce qui complique le raisonnement en situation de conduite en temps réel
- Une mémoire à long terme est indispensable
N’exploite pas les entrées lidar ni radar
- L’intégration d’encodeurs de perception 3D plus sophistiqués est nécessaire
Il reste des défis comme des méthodes de simulation efficaces, un temps d’inférence optimisé et la validation des étapes intermédiaires de décision

Perspectives

Même si EMMA a des limites comme modèle de conduite autonome autonome à lui seul, il montre que la technologie multimodale peut améliorer les performances et la généralisation des systèmes de conduite autonome
L’application de techniques avancées d’IA à des tâches réelles étend les capacités de l’IA à des environnements complexes et dynamiques
L’IA pourrait aussi être utile dans d’autres domaines critiques où des décisions rapides et précises fondées sur des entrées variées sont nécessaires en situation d’incertitude
En explorant le potentiel des grands modèles de langage multimodaux pour la conduite autonome, l’objectif est aussi de contribuer à l’amélioration de la sécurité routière et de l’accessibilité
On peut s’attendre à ce que cela contribue au développement d’IA capables d’explorer et de raisonner plus efficacement dans des environnements réels complexes

L’avis de GN⁺

EMMA constitue une recherche qui pourrait marquer une étape importante dans l’évolution de la conduite autonome
- C’est un bon exemple des atouts de l’apprentissage multimodal
- Il démontre que l’intégration de plusieurs tâches clés de la conduite autonome contribue à améliorer les performances
Même s’il existe encore des limites pour une application immédiate à la conduite réelle, cela constituera une bonne ressource de référence pour le développement des technologies associées
- En particulier, la mémoire à long terme, la fusion multimodale et l’optimisation de la simulation sont des domaines qui devront faire l’objet de recherches prioritaires
On peut s’attendre à ce que les technologies d’IA multimodale trouvent des usages non seulement dans la conduite autonome, mais aussi dans des secteurs variés comme la santé, la fabrication ou la réponse aux catastrophes
- Elles seront particulièrement utiles dans les domaines où les formes de données sont variées et où la prise de décision est essentielle
Toutefois, la nature boîte noire des modèles multimodaux peut soulever des questions d’explicabilité et d’éthique
- Il sera important de minimiser les biais du modèle et de fournir des justifications pour les résultats produits
Des recherches similaires incluent DriveNet de NVIDIA, AV2.0 de Wayve et FSD de Tesla
- Chaque entreprise adopte une approche légèrement différente, mais toutes utilisent en commun l’apprentissage multimodal
- La concurrence et la coopération entre entreprises devraient encore accélérer les progrès de la conduite autonome

Waymo dévoile EMMA, un modèle multimodal end-to-end pour la conduite autonome

Principaux éléments de la recherche

Présentation d’EMMA

Principaux résultats

Limites

Perspectives

L’avis de GN⁺

À lire aussi

Aucun commentaire pour le moment.