CogAgent
Open-Source GUI-Agent basierend auf einem End-to-End visuellen Sprachmodell (VLM)
Normales ProduktProgrammierungVisuelles SprachmodellGUI-Agent
CogAgent ist ein GUI-Agent, der auf einem visuellen Sprachmodell (VLM) basiert und über Screenshots und natürliche Sprache eine bidirektionale (chinesisch und englisch) Interaktion ermöglicht. CogAgent hat signifikante Fortschritte in Bezug auf GUI-Wahrnehmung, Genauigkeit der Inferenzvorhersage, Vollständigkeit des Aktionsraums und Aufgabenverallgemeinerung erzielt. Das Modell wurde bereits im GLM-PC-Produkt von ZhipuAI eingesetzt und soll Forschern und Entwicklern helfen, die Forschung und Anwendung von GUI-Agenten auf Basis visueller Sprachmodelle voranzutreiben.
CogAgent Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34