Recientemente, Waymo ha dado un paso importante en el campo de la conducción autónoma. La compañía siempre ha considerado su colaboración con Google DeepMind como una ventaja competitiva, y ahora está utilizando el modelo de lenguaje multimodal grande Gemini de Google para mejorar el entrenamiento de sus taxis autónomos.
Waymo ha publicado un nuevo artículo de investigación que presenta un "modelo multimodal de extremo a extremo" llamado EMMA, capaz de procesar datos de sensores para generar trayectorias futuras de conducción autónoma. Esto significa que los vehículos autónomos de Waymo pueden tomar decisiones de conducción más inteligentes y evitar obstáculos de manera eficiente.
La importancia de esta nueva tecnología radica no solo en su innovación, sino también en su potencial para cambiar el alcance de la mayoría de los modelos de lenguaje grandes actuales. Waymo espera que los MLLM se conviertan en "ciudadanos de primera clase" de su sistema de conducción autónoma, lo que sugiere que la conducción autónoma del futuro podría ser muy diferente de los actuales chatbots o generadores de imágenes.
En el artículo, Waymo menciona que los sistemas de conducción autónoma tradicionales suelen desarrollar "módulos" específicos para diversas funciones, incluyendo percepción, mapeo, predicción y planificación. Si bien este método ha logrado algunos avances en los últimos años, sus limitaciones son evidentes, especialmente al enfrentarse a entornos nuevos y complejos. Waymo cree que los MLLM como Gemini pueden resolver estos problemas, ya que poseen un amplio "conocimiento del mundo" y son capaces de realizar "razonamiento en cadena", simulando el razonamiento lógico humano.
El modelo EMMA se ha desarrollado para ayudar a los taxis autónomos de Waymo a navegar en entornos complejos. Por ejemplo, cuando se encuentra con animales u obras en la carretera, EMMA puede ayudar al vehículo autónomo a encontrar la mejor ruta. Sin embargo, Waymo también reconoce algunas limitaciones de EMMA, como la incapacidad actual para procesar entradas de sensores 3D de lidar o radar.
La investigación de Waymo en este campo necesita profundizarse, pero esperan que este resultado impulse más investigaciones para abordar los problemas actuales y promover el desarrollo de la tecnología de conducción autónoma.
Puntos clave:
🚗 Waymo está utilizando el modelo Gemini de Google para desarrollar EMMA, un nuevo sistema de entrenamiento para taxis autónomos, mejorando su capacidad de toma de decisiones.
🌍 El modelo EMMA puede procesar datos complejos de sensores, ayudando a los vehículos autónomos a evitar obstáculos de forma inteligente.
🔍 Aunque EMMA tiene potencial, Waymo admite que se necesita más investigación para superar sus limitaciones actuales.