Das Tsinghua University ZhiPu AI-Team hat CogAgent vorgestellt, ein visuell-sprachliches Modell, das sich auf die Verbesserung des Verständnisses und der Navigation von grafischen Benutzeroberflächen (GUIs) konzentriert. Es verwendet ein Dual-Encoder-System zur Verarbeitung komplexer GUI-Elemente.
Das Modell zeigt hervorragende Leistungen in der Verarbeitung von hochauflösenden Eingaben, der GUI-Navigation auf PC- und Android-Plattformen sowie bei Text- und visuellen Frage-Antwort-Aufgaben.
Potenzielle Anwendungen von CogAgent umfassen die Automatisierung von GUI-Operationen, die Bereitstellung von GUI-Hilfe und -Anleitungen sowie die Förderung neuer GUI-Designs und Interaktionsmethoden.
Obwohl sich CogAgent noch in der frühen Entwicklungsphase befindet, verspricht es, die Art und Weise, wie wir mit Computern interagieren, grundlegend zu verändern.