Waymo a récemment annoncé une percée majeure : le développement d’un nouveau modèle d’entraînement basé sur Gemini, le grand modèle linguistique multi-modal (MLLM) de Google, pour ses taxis autonomes. Ce nouveau modèle, appelé EMMA (Modèle Multimodal de bout en bout pour la conduite autonome), traite les données des capteurs pour générer les trajectoires futures de la voiture autonome, aidant ainsi la voiture à décider où aller et comment éviter les obstacles.

QQ20241031-093704.png

EMMA est l’un des premiers exemples de l’utilisation prévue des MLLM par un leader de l’industrie de la conduite autonome, suggérant que ces LLM pourraient dépasser leur utilisation actuelle en tant que chatbots, gestionnaires de courriels et générateurs d’images pour trouver des applications dans le tout nouvel environnement de la route.

L’équipe de recherche de Waymo explique que les MLLM comme Gemini offrent des solutions intéressantes pour les systèmes de conduite autonome pour deux raisons : les chatbots sont des « généralistes » entraînés sur d’énormes quantités de données extraites d’Internet, « capables de fournir une riche « connaissance du monde » qui dépasse le contenu des journaux de conduite ordinaires »; ils présentent des capacités de raisonnement « exceptionnelles » grâce à des techniques telles que le « raisonnement en chaîne de pensées », imitant le raisonnement humain en décomposant des tâches complexes en une série d’étapes logiques.

Le modèle EMMA de Waymo excelle dans la prédiction de trajectoires, la détection d’objets et la compréhension des cartes, mais présente également des limites, telles que l’incapacité d’intégrer les données des capteurs 3D provenant de lidar ou de radar, et le traitement d’un petit nombre d’images à la fois. L’entraînement de taxis autonomes à l’aide de MLLM présente également des risques, tels que la possibilité que le modèle halluciner ou échouer à des tâches simples.

Par conséquent, Waymo indique qu’il est nécessaire de poursuivre les recherches pour atténuer ces problèmes et faire progresser les technologies de pointe de l’architecture des modèles de conduite autonome.