智谱 AI ha lanzado CogAgent, un modelo de lenguaje visual con 18 mil millones de parámetros.
CogAgent destaca en la comprensión y navegación de interfaces gráficas de usuario (GUI), alcanzando un rendimiento de vanguardia (SOTA) en múltiples pruebas de referencia.
El modelo admite entradas visuales de alta resolución y preguntas y respuestas conversacionales, pudiendo responder preguntas sobre cualquier captura de pantalla de GUI.
Además, CogAgent admite tareas relacionadas con el reconocimiento óptico de caracteres (OCR), mejorando significativamente sus capacidades mediante el preentrenamiento y el ajuste fino.
Los usuarios pueden cargar capturas de pantalla para realizar inferencias de tareas y obtener información sobre la planificación, la siguiente acción y las coordenadas de la operación específica.