El equipo técnico de Zhipu ha lanzado recientemente un nuevo producto basado en los resultados de investigación del equipo técnico de GLM: AutoGLM. Se trata de un agente inteligente (Agent) capaz de simular la operación de un teléfono móvil por parte de un humano y ejecutar diversas tareas. El lanzamiento de AutoGLM marca un avance en la inteligencia artificial en el campo del "uso del teléfono", acercando aún más las aplicaciones de la IA a la vida cotidiana.

微信截图_20241026150533.png

AutoGLM puede ejecutar múltiples tareas, como dar "me gusta" y comentar en el círculo de amigos de WeChat, comprar productos de pedidos históricos en Taobao, reservar hoteles en Ctrip, comprar billetes de tren en 12306, pedir comida a domicilio en Meituan, etc. Sus aplicaciones no se limitan a esto; en teoría, AutoGLM puede realizar cualquier tarea que un humano pueda hacer en un dispositivo electrónico visual, con una lógica de operación similar a la humana y sin necesidad de complejas configuraciones de flujo de trabajo.

Actualmente, los usuarios pueden experimentar AutoGLM-Web instalando el plugin "Zhipu Qingyan", un asistente de navegador que puede simular el acceso de los usuarios a páginas web, hacer clic en ellas y completar automáticamente búsquedas avanzadas, resúmenes y generación de contenido en el sitio web. Además, AutoGLM también ha abierto la solicitud de prueba interna en el sistema Android y ha establecido una cooperación profunda con fabricantes de teléfonos móviles como Honor.

微信截图_20241026150714.png

La tecnología de AutoGLM se basa en la "interfaz intermedia de desacoplamiento de agentes inteligentes básicos" y el "marco de aprendizaje por refuerzo de cursos en línea de autoevolución" de desarrollo propio de Zhipu, resolviendo problemas como la antagonismo de capacidades, la escasez de tareas de entrenamiento y datos, la escasez de señales de retroalimentación y la deriva de la distribución de estrategias en la planificación de tareas y la ejecución de acciones de los agentes inteligentes de modelos grandes. AutoGLM puede automejorarse continuamente y mejorar su rendimiento de manera estable y sostenida, similar a cómo las personas adquieren nuevas habilidades a medida que crecen.

En cuanto a los desafíos tecnológicos, AutoGLM ha resuelto la falta de precisión en la "ejecución de acciones" y la falta de flexibilidad en la "planificación de tareas". A través del diseño de la "interfaz intermedia de desacoplamiento de agentes inteligentes básicos", se desacoplan las dos etapas de "planificación de tareas" y "ejecución de acciones" mediante una interfaz intermedia de lenguaje natural, lo que permite una mejora significativa de las capacidades del agente inteligente. Al mismo tiempo, AutoGLM adopta el "marco de aprendizaje por refuerzo de cursos en línea de autoevolución" para aprender y mejorar las capacidades de los agentes inteligentes de modelos grandes en entornos Web y Phone en un entorno en línea real.

AutoGLM ha logrado una mejora significativa del rendimiento en el uso de teléfonos y navegadores web, y ha superado el rendimiento de GPT-4o y Claude-3.5-Sonnet en el benchmark de evaluación de AndroidLab. En el benchmark de evaluación de WebArena-Lite, AutoGLM ha logrado una mejora de rendimiento de aproximadamente el 200% en comparación con GPT-4o, reduciendo la diferencia de tasa de éxito en el control de la interfaz gráfica de usuario entre humanos y agentes inteligentes de modelos grandes.

Dirección del proyecto:https://xiao9905.github.io/AutoGLM