Beijing Zhihu Hua Zhang Technology Co., Ltd. ha anunciado recientemente que su agente inteligente ZhiPu GLM-PC ha sido actualizado y está oficialmente abierto al público. Como el primer agente inteligente multimodal del mundo capaz de operar una computadora de forma autónoma, GLM-PC se basa en el modelo multimodal de gran escala CogAgent de ZhiPu. Los usuarios solo necesitan una simple pulsación de Enter para experimentar este innovador asistente inteligente para computadoras.

Desde el lanzamiento de GLM-PC v1.0 el 29 de noviembre de 2024, ha estado en fase de prueba interna. Esta versión incluye el modo "Pensamiento Profundo", que añade funciones de razonamiento lógico y generación de código, y también admite el sistema Windows. Las capacidades de GLM-PC abarcan la generación de código, la ejecución lógica, la comprensión de la interfaz gráfica de usuario (GUI), entre otros aspectos, mostrando su gran potencial en la operación inteligente.

image.png

En cuanto a la generación de código y la ejecución lógica, GLM-PC tiene la capacidad de analizar de forma integral los objetivos y los recursos, pudiendo generar una hoja de ruta de ejecución, descomponiendo las tareas grandes en subtareas pequeñas y manejables, logrando una planificación de tareas eficiente. Una vez completada la planificación de la tarea, el agente inteligente puede iniciar el módulo de generación de código para su ejecución cíclica, asegurando la finalización precisa de la tarea. Además, GLM-PC posee una capacidad de pensamiento prolongado, pudiendo ajustar y reflexionar sobre las correcciones en tiempo real, interactuando con el usuario para optimizar las soluciones.

En cuanto al reconocimiento de imágenes y GUI, GLM-PC puede identificar y comprender con precisión los elementos de la interfaz gráfica, como botones e iconos, y proporcionar recomendaciones inteligentes combinando la información de las operaciones históricas del usuario. Su función de análisis semántico de imágenes puede analizar en profundidad imágenes complejas, extrayendo información clave como tendencias e indicadores. Además, GLM-PC puede fusionar información de imágenes y texto para proporcionar al usuario resultados perceptivos completos, ayudándole a elaborar planes de operación precisos.

Con el continuo desarrollo de la tecnología de inteligencia artificial, el lanzamiento de ZhiPu GLM-PC sin duda ofrece a los usuarios una experiencia informática más eficiente e inteligente, marcando un importante avance en la interacción humano-computadora.