Waymo ha anunciado recientemente un gran avance: un nuevo modelo de entrenamiento basado en el modelo de lenguaje multimodal grande (MLLM) Gemini de Google, para el desarrollo de sus taxis autónomos. Este nuevo modelo, llamado EMMA (modelo multimodal de extremo a extremo para conducción autónoma), procesa datos de sensores para generar trayectorias futuras para vehículos autónomos, ayudando a los coches sin conductor a decidir a dónde ir y cómo evitar obstáculos.
El modelo EMMA es una de las primeras señales de que las empresas líderes en conducción autónoma planean usar MLLM en sus operaciones, lo que indica que estos LLM pueden ir más allá de su uso actual como chatbots, administradores de correo electrónico y generadores de imágenes, encontrando aplicaciones en el nuevo entorno de las carreteras.
El equipo de investigación de Waymo afirma que los MLLM como Gemini ofrecen soluciones interesantes para los sistemas de conducción autónoma por dos razones: los chatbots son "generalistas", entrenados con grandes cantidades de datos extraídos de internet, "pudiendo proporcionar un rico 'conocimiento del mundo' que va más allá de lo que contienen los registros de conducción normales"; y muestran una capacidad de razonamiento "excelente" a través de técnicas como la "inferencia en cadena de pensamiento", imitando el razonamiento humano al descomponer tareas complejas en una serie de pasos lógicos.
El modelo EMMA de Waymo muestra un excelente rendimiento en la predicción de trayectorias, la detección de objetos y la comprensión de mapas, pero también tiene limitaciones, como la incapacidad de integrar entradas de sensores 3D de lidar o radar, y solo puede procesar un pequeño número de fotogramas a la vez. El entrenamiento de taxis autónomos usando MLLM también presenta riesgos, como la posibilidad de que el modelo tenga alucinaciones o no pueda completar tareas sencillas.
Por lo tanto, Waymo afirma que se necesita más investigación para mitigar estos problemas y avanzar en las últimas tecnologías de arquitectura de modelos de conducción autónoma.