ROCKET-1
Ein visuell-zeitlicher Kontext-Prompt-Modell zur Steuerung von Interaktionen in offenen Welten.
Normales ProduktProgrammierungVisuell-linguistisches ModellKörperliche Entscheidungsfindung
ROCKET-1 ist ein visuell-linguistisches Modell (VLMs), das speziell für die körperliche Entscheidungsfindung in offenen Welten entwickelt wurde. Das Modell verbindet VLMs und Strategiemodelle über ein visuell-zeitliches Kontext-Prompt-Protokoll, wobei die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen zur Steuerung der Strategie-Umwelt-Interaktion verwendet wird. Auf diese Weise kann ROCKET-1 die visuell-linguistischen Schlussfolgerungsfähigkeiten von VLMs freisetzen, um komplexe, kreative Aufgaben zu lösen, insbesondere im Bereich des räumlichen Verständnisses. Experimente in Minecraft zeigen, dass der Ansatz ROCKET-1 es dem Agenten ermöglicht, zuvor unlösbare Aufgaben zu bewältigen und die Effektivität des visuell-zeitlichen Kontext-Prompts bei der körperlichen Entscheidungsfindung hervorhebt.
ROCKET-1 Neueste Verkehrssituation
Monatliche Gesamtbesuche
118
Absprungrate
31.25%
Durchschnittliche Seiten pro Besuch
4.1
Durchschnittliche Besuchsdauer
00:04:57