CogAgent: Nuevo modelo de lenguaje visual desarrollado por la Universidad Tsinghua para una comprensión y navegación GUI mejoradas

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Dec 27, 2023

102

CogAgent: Un Modelo de Lenguaje Visual

El equipo de IA de la Universidad Tsinghua ha lanzado CogAgent, un modelo de lenguaje visual centrado en mejorar la comprensión y navegación de interfaces gráficas de usuario (GUI). Emplea un sistema de doble codificador para procesar elementos GUI complejos.

El modelo destaca en el procesamiento de entradas de alta resolución, la navegación de GUI en plataformas PC y Android, y en tareas de preguntas y respuestas basadas en texto e imágenes. Las posibles aplicaciones de CogAgent incluyen la automatización de operaciones GUI, la provisión de ayuda y orientación para GUI, y el impulso de nuevas formas de diseño e interacción GUI.

Aunque todavía se encuentra en una fase temprana de desarrollo, se espera que este modelo genere un cambio significativo en la forma en que interactuamos con las computadoras.

Google lanza PaliGemma 2 Mix, un nuevo modelo de lenguaje visual con múltiples funciones para desarrolladores

Recientemente, Google anunció el lanzamiento de un nuevo modelo de lenguaje visual (VLM), llamado PaliGemma2Mix. Este modelo combina las capacidades de procesamiento de imágenes y procesamiento de lenguaje natural, pudiendo comprender simultáneamente información visual y entrada de texto, y generar la salida correspondiente según sea necesario. Esto marca un nuevo avance en el procesamiento de múltiples tareas dentro de la inteligencia artificial. PaliGemma2Mix ofrece funciones muy potentes, incluyendo la descripción de imágenes, el reconocimiento óptico de caracteres

IBM lanza Granite-Vision-3.1-2B, un modelo de lenguaje visual que facilita el análisis de documentos complejos

Con el continuo avance de la inteligencia artificial, la fusión de datos visuales y de texto se ha convertido en un desafío complejo. Los modelos tradicionales suelen tener dificultades para analizar con precisión documentos visuales estructurados como tablas, gráficos, infografías e ilustraciones. Esta limitación afecta la capacidad de extracción y comprensión automática de contenido, lo que a su vez impacta en aplicaciones como el análisis de datos, la recuperación de información y la toma de decisiones. Para abordar esta necesidad, IBM ha lanzado recientemente Granite-Vision-3.1-2B, un modelo de lenguaje visual pequeño diseñado específicamente para la comprensión de documentos.

La tecnología VLA lidera la carrera de la conducción autónoma, Nvidia ayuda a las empresas emergentes a ganar cuota de mercado rápidamente

En la industria de la conducción autónoma, 2025 se considera el "año de la llegada de VLA", lo que marca el surgimiento de un nuevo paradigma tecnológico. VLA, o Modelo de Visión-Lenguaje-Acción (Vision-Language-Action Model), fue propuesto inicialmente por DeepMind en 2023, con el objetivo de mejorar la comprensión y capacidad de respuesta de los robots al entorno. En los últimos años, esta tecnología ha recibido una gran atención en el campo de la conducción autónoma. En comparación con los modelos tradicionales de visión-lenguaje (VLM), VLA

NVIDIA lanza NVILA, un nuevo modelo de lenguaje visual que supera a GPT-4o Mini y Llama 3.2

Recientemente, NVIDIA presentó NVILA, su nuevo modelo de lenguaje visual abierto. Diseñado para optimizar la precisión y la eficiencia, NVILA se ha establecido como un líder en el campo de la IA visual gracias a su rendimiento excepcional. Según NVIDIA, NVILA reduce en 4,5 veces el coste de entrenamiento, en 3,4 veces la memoria necesaria para el ajuste fino y casi en 2 veces la latencia en el relleno previo y la decodificación. Estas cifras se basan en comparaciones con otro gran modelo de visión LLaVa OneVision. En el benchmark de vídeo...