Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

Modelo de tarea de agente CogAgent-9B de código abierto de ZhiPu AI: predicción de operaciones a través de capturas de pantalla

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Dec 27, 2024

253

El modelo base GLM-PC de CogAgent-9B, perteneciente a Zhipu AI, ya está disponible de código abierto para impulsar el desarrollo del ecosistema de agentes de modelos grandes. CogAgent-9B, entrenado a partir de GLM-4V-9B, es un modelo de agente especializado para tareas que puede predecir la siguiente operación de la interfaz gráfica de usuario (GUI) basándose únicamente en una captura de pantalla como entrada, combinando la tarea especificada por el usuario con las operaciones históricas. Su versatilidad permite su aplicación en una amplia gama de escenarios de interacción basados en GUI, incluyendo computadoras personales, teléfonos móviles y dispositivos para automóviles.

微信截图_20241227091131.png

En comparación con la primera versión del modelo CogAgent, lanzada en diciembre de 2023, CogAgent-9B-20241220 ha mejorado significativamente en aspectos como la percepción de la GUI, la precisión de la predicción de inferencia, la integridad del espacio de acción, la versatilidad de las tareas y la generalización. Además, admite capturas de pantalla e interacción lingüística en chino e inglés. La entrada de CogAgent solo incluye instrucciones en lenguaje natural del usuario, un registro de acciones ejecutadas previamente y una captura de pantalla de la GUI, sin necesidad de información de diseño representada en texto o etiquetas de elementos adicionales. La salida incluye el proceso de pensamiento, una descripción en lenguaje natural de la siguiente acción, una descripción estructurada de la siguiente acción y una evaluación de la sensibilidad de la siguiente acción.

En las pruebas de rendimiento, CogAgent-9B-20241220 obtuvo resultados líderes en varios conjuntos de datos, demostrando sus ventajas en la localización de la GUI, la operación de un solo paso, la clasificación paso a paso en chino y las operaciones de varios pasos. Esta iniciativa de Zhipu Technology no solo impulsa el desarrollo de la tecnología de modelos grandes, sino que también ofrece nuevas herramientas y posibilidades para los profesionales de TI con discapacidad visual.

Código:
https://github.com/THUDM/CogAgent
Modelo:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
Comunidad MoDa: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

ZhiPu AI GLM-PC CogAgent-9B Interacción GUI

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily