El modelo base GLM-PC de CogAgent-9B, perteneciente a Zhipu AI, ya está disponible de código abierto para impulsar el desarrollo del ecosistema de agentes de modelos grandes. CogAgent-9B, entrenado a partir de GLM-4V-9B, es un modelo de agente especializado para tareas que puede predecir la siguiente operación de la interfaz gráfica de usuario (GUI) basándose únicamente en una captura de pantalla como entrada, combinando la tarea especificada por el usuario con las operaciones históricas. Su versatilidad permite su aplicación en una amplia gama de escenarios de interacción basados en GUI, incluyendo computadoras personales, teléfonos móviles y dispositivos para automóviles.

微信截图_20241227091131.png

En comparación con la primera versión del modelo CogAgent, lanzada en diciembre de 2023, CogAgent-9B-20241220 ha mejorado significativamente en aspectos como la percepción de la GUI, la precisión de la predicción de inferencia, la integridad del espacio de acción, la versatilidad de las tareas y la generalización. Además, admite capturas de pantalla e interacción lingüística en chino e inglés. La entrada de CogAgent solo incluye instrucciones en lenguaje natural del usuario, un registro de acciones ejecutadas previamente y una captura de pantalla de la GUI, sin necesidad de información de diseño representada en texto o etiquetas de elementos adicionales. La salida incluye el proceso de pensamiento, una descripción en lenguaje natural de la siguiente acción, una descripción estructurada de la siguiente acción y una evaluación de la sensibilidad de la siguiente acción.

En las pruebas de rendimiento, CogAgent-9B-20241220 obtuvo resultados líderes en varios conjuntos de datos, demostrando sus ventajas en la localización de la GUI, la operación de un solo paso, la clasificación paso a paso en chino y las operaciones de varios pasos. Esta iniciativa de Zhipu Technology no solo impulsa el desarrollo de la tecnología de modelos grandes, sino que también ofrece nuevas herramientas y posibilidades para los profesionales de TI con discapacidad visual.

Código:

https://github.com/THUDM/CogAgent

Modelo:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

Comunidad MoDa: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220