Das auf GLM-PC basierende Basismodell CogAgent-9B von Zhipu AI ist jetzt Open Source, um die Entwicklung des Ökosystems für große Sprachmodelle (LLMs) voranzutreiben. CogAgent-9B wurde auf Basis von GLM-4V-9B trainiert und ist ein spezialisiertes Agentenmodell für Aufgaben. Es kann allein anhand von Screenshots als Eingabe und unter Berücksichtigung der bisherigen Aktionen die nächste GUI-Operation vorhersagen, basierend auf beliebigen vom Benutzer angegebenen Aufgaben. Die Universalität dieses Modells ermöglicht einen breiten Einsatz in verschiedenen Szenarien mit GUI-basierter Interaktion, wie z. B. auf PCs, Smartphones und im Auto.

微信截图_20241227091131.png

Im Vergleich zur ersten Version des CogAgent-Modells, die im Dezember 2023 veröffentlicht wurde, bietet CogAgent-9B-20241220 signifikante Verbesserungen in Bezug auf GUI-Erkennung, Genauigkeit der Vorhersagen, Vollständigkeit des Aktionsraums, sowie Aufgaben-Universalität und Generalisierbarkeit. Es unterstützt außerdem Screenshots und Sprachinteraktionen in Chinesisch und Englisch. Die Eingabe von CogAgent besteht nur aus den Anweisungen des Benutzers in natürlicher Sprache, dem Protokoll der bereits ausgeführten Aktionen und dem GUI-Screenshot. Es werden keine textbasierten Layoutinformationen oder zusätzliche Element-Tags benötigt. Die Ausgabe umfasst den Denkprozess, eine Beschreibung der nächsten Aktion in natürlicher Sprache, eine strukturierte Beschreibung der nächsten Aktion und eine Beurteilung der Sensitivität der nächsten Aktion.

In Leistungstests erzielte CogAgent-9B-20241220 auf mehreren Datensätzen führende Ergebnisse und zeigte seine Stärken in der GUI-Lokalisierung, der Einzeloperation, der chinesischen Step-wise-Rangliste und der Mehrfachaktion. Diese Initiative von Zhipu AI fördert nicht nur die Entwicklung von großen Sprachmodellen, sondern bietet auch sehbehinderten IT-Fachkräften neue Werkzeuge und Möglichkeiten.

Code:

https://github.com/THUDM/CogAgent

Modell:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

魔搭社区 (Moda Community): https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220