El equipo de IA de la Universidad Tsinghua ha lanzado CogAgent, un modelo de lenguaje visual centrado en mejorar la comprensión y navegación de interfaces gráficas de usuario (GUI). Emplea un sistema de doble codificador para procesar elementos GUI complejos.
El modelo destaca en el procesamiento de entradas de alta resolución, la navegación de GUI en plataformas PC y Android, y en tareas de preguntas y respuestas basadas en texto e imágenes. Las posibles aplicaciones de CogAgent incluyen la automatización de operaciones GUI, la provisión de ayuda y orientación para GUI, y el impulso de nuevas formas de diseño e interacción GUI.
Aunque todavía se encuentra en una fase temprana de desarrollo, se espera que este modelo genere un cambio significativo en la forma en que interactuamos con las computadoras.