CogAgent

Open-Source GUI-Agent basierend auf einem End-to-End visuellen Sprachmodell (VLM)

Normales ProduktProgrammierungVisuelles SprachmodellGUI-Agent
CogAgent ist ein GUI-Agent, der auf einem visuellen Sprachmodell (VLM) basiert und über Screenshots und natürliche Sprache eine bidirektionale (chinesisch und englisch) Interaktion ermöglicht. CogAgent hat signifikante Fortschritte in Bezug auf GUI-Wahrnehmung, Genauigkeit der Inferenzvorhersage, Vollständigkeit des Aktionsraums und Aufgabenverallgemeinerung erzielt. Das Modell wurde bereits im GLM-PC-Produkt von ZhipuAI eingesetzt und soll Forschern und Entwicklern helfen, die Forschung und Anwendung von GUI-Agenten auf Basis visueller Sprachmodelle voranzutreiben.
Website öffnen

CogAgent Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

CogAgent Besuchstrend

CogAgent Geografische Verteilung der Besuche

CogAgent Traffic-Quellen

CogAgent Alternativen