CogAgent: Modelo de lenguaje visual de código abierto de Zhipu AI, con capacidad de respuesta de interfaz gráfica de usuario

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Dec 21, 2023

158

CogAgent: Un Modelo de Lenguaje Visual de Código Abierto

智谱 AI ha lanzado CogAgent, un modelo de lenguaje visual con 18 mil millones de parámetros.

CogAgent destaca en la comprensión y navegación de interfaces gráficas de usuario (GUI), alcanzando un rendimiento de vanguardia (SOTA) en múltiples pruebas de referencia.

El modelo admite entradas visuales de alta resolución y preguntas y respuestas conversacionales, pudiendo responder preguntas sobre cualquier captura de pantalla de GUI.

Además, CogAgent admite tareas relacionadas con el reconocimiento óptico de caracteres (OCR), mejorando significativamente sus capacidades mediante el preentrenamiento y el ajuste fino.

Los usuarios pueden cargar capturas de pantalla para realizar inferencias de tareas y obtener información sobre la planificación, la siguiente acción y las coordenadas de la operación específica.

Aumento explosivo de la eficiencia de los modelos grandes: se publica el código abierto de la tecnología COMET de ByteDance, con una aceleración de 1,7 veces

El equipo de modelos Doubao de ByteDance anunció recientemente que ha superado con éxito los cuellos de botella clave de la arquitectura de modelos de expertos mixtos (MoE) y ha publicado una importante tecnología de optimización llamada COMET. Esta tecnología mejora significativamente la eficiencia del entrenamiento de los modelos grandes, logrando una mejora de hasta 1,7 veces y reduciendo en un 40% los costes de entrenamiento. Nota sobre la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney. Según la información facilitada, la tecnología COMET ya se ha aplicado en el entrenamiento de clústeres de miles de tarjetas gráficas de ByteDance, lo que ha supuesto un ahorro de millones de GP.

¿Navegador con IA integrada? La herramienta de código abierto Browser Use revoluciona el mundo de la tecnología ¡Los desarrolladores la llaman la mejor!

Recientemente, el mundo de la tecnología y la comunidad de desarrolladores han sido inundados por un proyecto de código abierto llamado Browser Use. Esta herramienta es como si le hubiéramos dado alas a la IA, permitiéndole controlar un navegador con la misma soltura que un humano. Con lenguaje natural, se puede dirigir a la IA para que complete automáticamente diversas tareas web. Su potente capacidad de automatización y su flexible sistema de implementación han encendido la pasión de los amantes de la tecnología de todo el mundo, generando una gran ola en la plataforma X (antes Twitter). Browser Use se está expandiendo rápidamente, impulsando el avance de la IA en el campo de la automatización de navegadores.

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

Recientemente, la comunidad Modelers lanzó oficialmente Step-Video y Step-Audio, dos modelos multimodales de código abierto desarrollados por Step-Video. Estos dos modelos se utilizan para la generación de video e interacción de voz, con el objetivo de proporcionar herramientas de IA más potentes para desarrolladores y empresas. El nombre completo del modelo Step-Video es Step-Video-T2V, un modelo de generación de video de código abierto, el más grande del mundo, con una capacidad de 30 mil millones de parámetros. Este modelo puede generar directamente videos de 20 segundos...

Noticias de IA

CogAgent: Modelo de lenguaje visual de código abierto de Zhipu AI, con capacidad de respuesta de interfaz gráfica de usuario

站长之家

Noticias de IA relacionadas recomendadas

Aumento explosivo de la eficiencia de los modelos grandes: se publica el código abierto de la tecnología COMET de ByteDance, con una aceleración de 1,7 veces

¿Navegador con IA integrada? La herramienta de código abierto Browser Use revoluciona el mundo de la tecnología ¡Los desarrolladores la llaman la mejor!

Huawei Ascend y Step-Video lanzan un modelo multimodal de código abierto para incursionar en nuevas áreas de la IA

¡HeyGen de código abierto llega! Heygem: clonación precisa de apariencia y voz con sincronización labial