ROCKET-1

Ein visuell-zeitlicher Kontext-Prompt-Modell zur Steuerung von Interaktionen in offenen Welten.

Normales ProduktProgrammierungVisuell-linguistisches ModellKörperliche Entscheidungsfindung
ROCKET-1 ist ein visuell-linguistisches Modell (VLMs), das speziell für die körperliche Entscheidungsfindung in offenen Welten entwickelt wurde. Das Modell verbindet VLMs und Strategiemodelle über ein visuell-zeitliches Kontext-Prompt-Protokoll, wobei die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen zur Steuerung der Strategie-Umwelt-Interaktion verwendet wird. Auf diese Weise kann ROCKET-1 die visuell-linguistischen Schlussfolgerungsfähigkeiten von VLMs freisetzen, um komplexe, kreative Aufgaben zu lösen, insbesondere im Bereich des räumlichen Verständnisses. Experimente in Minecraft zeigen, dass der Ansatz ROCKET-1 es dem Agenten ermöglicht, zuvor unlösbare Aufgaben zu bewältigen und die Effektivität des visuell-zeitlichen Kontext-Prompts bei der körperlichen Entscheidungsfindung hervorhebt.
Website öffnen

ROCKET-1 Neueste Verkehrssituation

Monatliche Gesamtbesuche

118

Absprungrate

31.25%

Durchschnittliche Seiten pro Besuch

4.1

Durchschnittliche Besuchsdauer

00:04:57

ROCKET-1 Besuchstrend

ROCKET-1 Geografische Verteilung der Besuche

ROCKET-1 Traffic-Quellen

ROCKET-1 Alternativen