El 23 de enero de 2025, GLM-PC, el primer agente inteligente informático del mundo orientado al público y listo para usar, recibió una nueva actualización que ha generado un gran interés. GLM-PC, basado en el modelo multimodal de gran escala CogAgent de Zhipu, puede "observar" y "operar" un ordenador como un humano, ayudando a los usuarios a completar de manera eficiente diversas tareas informáticas.
Desde el lanzamiento de GLM-PC v1.0 y la apertura de su prueba interna el 29 de noviembre de 2024, este agente inteligente ha experimentado continuas optimizaciones y actualizaciones. El nuevo modo "Pensamiento Profundo" ha añadido funciones de razonamiento lógico y generación de código, lo que permite a GLM-PC manejar tareas complejas con mayor facilidad. Además, GLM-PC ahora es compatible con el sistema Windows, ampliando aún más sus escenarios de aplicación.
El diseño de la arquitectura de GLM-PC considera cuidadosamente la mejora de las capacidades del modelo del agente y la optimización de la arquitectura de colaboración. Un agente completo debe satisfacer la recepción de señales multidimensionales como texto, imágenes, vídeo y audio a nivel perceptivo; a nivel de pensamiento, debe poseer razonamiento lógico, capacidad de planificación de tareas y percepción eficiente y capacidad de operación flexible; y a nivel de ejecución, debe poder realizar operaciones en todo el espacio GUI, recibir retroalimentación del entorno y autocorregirse. GLM-PC se inspira en la división del trabajo entre el "hemisferio izquierdo" y el "hemisferio derecho" del cerebro humano, combinando la generación de código y la comprensión de la interfaz gráfica de usuario para lograr una profunda integración entre el razonamiento lógico y la cognición perceptiva, lo que le otorga la capacidad de equilibrar la lógica y la creatividad.
En aplicaciones prácticas, GLM-PC ha demostrado capacidades poderosas. Su "hemisferio izquierdo" se encarga del razonamiento lógico riguroso y la ejecución de tareas, pudiendo elaborar rápidamente planes de tareas detallados y, mediante un mecanismo de ejecución cíclica, garantizar la ejecución precisa y la alta automatización de las tareas. Por ejemplo, GLM-PC puede extraer automáticamente los datos de los productos de las imágenes, almacenarlos en Excel y añadir automáticamente los productos al carrito de compras de Taobao, implementando un proceso de compra integral. Su "hemisferio derecho" se centra en la percepción profunda y la experiencia interactiva, pudiendo identificar con precisión los elementos de la interfaz gráfica de usuario, comprender el comportamiento del usuario, realizar un análisis semántico profundo de imágenes complejas e integrar información de imágenes y texto para formar resultados de percepción completos. Esto hace que GLM-PC destaque en la organización de datos y la extracción de información.
Cabe destacar que GLM-PC también muestra la poderosa capacidad de colaboración entre los hemisferios izquierdo y derecho. Al procesar tareas lógicas complejas, GLM-PC también puede mostrar una mayor capacidad de adaptación, creatividad y generalización en problemas abiertos. Mediante la optimización dinámica y la percepción contextual, GLM-PC puede ayudar a los usuarios a explorar soluciones más eficientes, especialmente en el procesamiento de tareas cíclicas, la ejecución de inferencias de varios pasos y la gestión de tareas de larga cadena.
Además, Zhipu está promoviendo activamente la cooperación entre GLM-PC y conocidos fabricantes de PC para impulsar conjuntamente la innovación y el desarrollo de AIPC (ordenadores personales con IA). Un AIPC no es solo un ordenador, sino una nueva aplicación de los agentes de IA en el campo de la informática personal, capaz de ofrecer a los usuarios una experiencia de trabajo y vida más eficiente e inteligente.
Descarga y experiencia:https://cogagent.aminer.cn