Waymo hat kürzlich einen bedeutenden Durchbruch bekannt gegeben: die Entwicklung eines neuen Trainingsmodells auf Basis von Googles multimodalem großem Sprachmodell (MLLM) Gemini für die Entwicklung seiner autonomen Taxis. Dieses neue Modell, EMMA (End-to-End Multimodal Model for Autonomous Driving) genannt, verarbeitet Sensordaten, um zukünftige Trajektorien für selbstfahrende Autos zu generieren und hilft so den autonomen Fahrzeugen zu entscheiden, wohin sie fahren und wie sie Hindernissen ausweichen können.
EMMA ist eines der ersten Beispiele dafür, dass führende Unternehmen im Bereich des autonomen Fahrens MLLMs in ihren Betrieb einsetzen wollen. Dies zeigt, dass diese LLMs über ihre derzeitige Verwendung als Chatbots, E-Mail-Manager und Bildgeneratoren hinausgehen und in völlig neuen Umgebungen, wie der Straße, Anwendung finden können.
Das Waymo-Forschungsteam erklärt, dass MLLMs wie Gemini zwei interessante Vorteile für autonome Fahrsysteme bieten: Chatbots sind „Generalisten“, trainiert mit riesigen Datenmengen aus dem Internet, und können „umfangreiches ‚Weltwissen‘ liefern, das über den Inhalt gewöhnlicher Fahrtenprotokolle hinausgeht“. Sie zeigen durch Techniken wie „Chain-of-Thought-Reasoning“ eine „hervorragende“ Schlussfolgerungsfähigkeit, indem sie komplexe Aufgaben in eine Reihe logischer Schritte zerlegen und so menschliches Denken nachahmen.
Waymos EMMA-Modell zeigt hervorragende Leistungen in der Trajektorvorhersage, Objekterkennung und Kartenverständnis. Es hat jedoch auch Einschränkungen, z. B. die Unfähigkeit, 3D-Sensoreingaben von Lidar oder Radar zu integrieren, und die Verarbeitung nur weniger Bildframes gleichzeitig. Der Einsatz von MLLMs zum Trainieren autonomer Taxis birgt auch Risiken, z. B. dass das Modell Halluzinationen erzeugt oder einfache Aufgaben nicht bewältigen kann.
Daher erklärt Waymo, dass weitere Forschung erforderlich ist, um diese Probleme zu beheben und die neuesten Technologien der Architektur von autonomen Fahrmodellen weiterzuentwickeln.