CogAgent: Ein visuelles Sprachmodell

智谱 AI hat CogAgent, ein visuelles Sprachmodell mit 180 Milliarden Parametern, open source veröffentlicht. CogAgent zeichnet sich durch hervorragende Leistung im Verständnis und der Navigation von grafischen Benutzeroberflächen (GUIs) aus und erreicht in mehreren Benchmark-Tests branchenführende (SOTA) Ergebnisse.

Das Modell unterstützt hochauflösende visuelle Eingaben und dialogbasierte Fragen und Antworten und kann Fragen zu beliebigen GUI-Screenshots beantworten. Darüber hinaus unterstützt CogAgent OCR-bezogene Aufgaben, wobei seine Fähigkeiten durch Pretraining und Feintuning deutlich verbessert wurden.

Benutzer können Screenshots hochladen, um Aufgaben zu lösen und erhalten Informationen zum Plan, zur nächsten Aktion und zu den genauen Koordinaten der jeweiligen Operation.