Recentemente, a Waymo deu mais um passo importante no campo da direção autônoma. A empresa sempre considerou sua parceria com o Google DeepMind uma vantagem competitiva, e agora está utilizando o modelo de linguagem grande multimodais Gemini do Google para melhorar o treinamento de seus táxis autônomos.

A Waymo publicou um novo artigo de pesquisa apresentando um “modelo multimodais de ponta a ponta” chamado EMMA, que pode processar dados de sensores para gerar trajetórias futuras para veículos autônomos. Isso significa que os veículos autônomos da Waymo podem tomar decisões de direção mais inteligentes e evitar obstáculos de forma eficaz.

image.png

A importância dessa nova tecnologia reside não apenas em sua inovação, mas também no potencial de mudar o escopo de aplicação da maioria dos modelos de linguagem grandes atuais. A Waymo espera que o MLLM seja um “cidadão de primeira classe” de seu sistema de direção autônoma, o que sugere que a direção autônoma do futuro poderá ser muito diferente dos atuais chatbots ou geradores de imagens.

No artigo, a Waymo menciona que os sistemas tradicionais de direção autônoma geralmente desenvolvem “módulos” específicos para várias funções, incluindo percepção, mapeamento, previsão e planejamento. Embora esse método tenha apresentado alguns avanços nos últimos anos, suas limitações são evidentes, especialmente ao lidar com novos ambientes complexos. A Waymo acredita que MLLMs como o Gemini podem resolver esses problemas, pois possuem um amplo “conhecimento de mundo” e são capazes de realizar “raciocínio em cadeia”, simulando o raciocínio lógico humano.

O modelo EMMA foi desenvolvido para ajudar os táxis autônomos da Waymo a navegar em ambientes complexos. Por exemplo, ao encontrar animais ou obras na estrada, o EMMA pode ajudar os veículos autônomos a encontrar a melhor rota. No entanto, a Waymo também reconhece algumas limitações do EMMA, como a incapacidade atual de processar entradas de sensores 3D de lidar ou radar.

A pesquisa da Waymo nessa área ainda precisa avançar, mas a empresa espera que esses resultados inspirem mais pesquisas para lidar com os problemas atuais e impulsionar o desenvolvimento da tecnologia de direção autônoma.

Destaques:

🚗 A Waymo está usando o modelo Gemini do Google para desenvolver o EMMA, um novo sistema de treinamento para táxis autônomos, melhorando sua capacidade de tomada de decisão.

🌍 O modelo EMMA pode processar dados complexos de sensores, ajudando os veículos autônomos a evitar obstáculos de forma inteligente.

🔍 Embora o EMMA tenha potencial, a Waymo reconhece que mais pesquisas são necessárias para superar suas limitações atuais.