Alibaba Cloud lanza Qwen-VL, un modelo multimodal de lenguaje grande de código abierto

亿邦动力

Publicado elNoticias de IA · 2 minutos de lectura · Aug 25, 2023

El 25 de agosto, Alibaba Cloud lanzó Qwen-VL, un modelo de lenguaje visual a gran escala que admite múltiples idiomas, incluyendo chino e inglés, y posee la capacidad de comprender conjuntamente texto e imágenes. Qwen-VL se basa en el modelo de lenguaje general Qwen-7B, previamente de código abierto por Alibaba Cloud. En comparación con otros modelos de lenguaje visual, Qwen-VL añade capacidades como la localización visual y la comprensión de texto dentro de imágenes. Qwen-VL ya ha obtenido más de 3400 estrellas en GitHub y más de 400.000 descargas. Los modelos de lenguaje visual se consideran una dirección importante en la evolución de la IA general. La industria cree que los modelos que admiten entradas multimodales pueden mejorar la capacidad de comprensión del mundo y ampliar los escenarios de uso. Alibaba Cloud, a través del código abierto de Qwen-VL, impulsa aún más el progreso de la tecnología de IA general.

Google lanza PaliGemma 2 Mix, un nuevo modelo de lenguaje visual con múltiples funciones para desarrolladores

Recientemente, Google anunció el lanzamiento de un nuevo modelo de lenguaje visual (VLM), llamado PaliGemma2Mix. Este modelo combina las capacidades de procesamiento de imágenes y procesamiento de lenguaje natural, pudiendo comprender simultáneamente información visual y entrada de texto, y generar la salida correspondiente según sea necesario. Esto marca un nuevo avance en el procesamiento de múltiples tareas dentro de la inteligencia artificial. PaliGemma2Mix ofrece funciones muy potentes, incluyendo la descripción de imágenes, el reconocimiento óptico de caracteres

IBM lanza Granite-Vision-3.1-2B, un modelo de lenguaje visual que facilita el análisis de documentos complejos

Con el continuo avance de la inteligencia artificial, la fusión de datos visuales y de texto se ha convertido en un desafío complejo. Los modelos tradicionales suelen tener dificultades para analizar con precisión documentos visuales estructurados como tablas, gráficos, infografías e ilustraciones. Esta limitación afecta la capacidad de extracción y comprensión automática de contenido, lo que a su vez impacta en aplicaciones como el análisis de datos, la recuperación de información y la toma de decisiones. Para abordar esta necesidad, IBM ha lanzado recientemente Granite-Vision-3.1-2B, un modelo de lenguaje visual pequeño diseñado específicamente para la comprensión de documentos.

La tecnología VLA lidera la carrera de la conducción autónoma, Nvidia ayuda a las empresas emergentes a ganar cuota de mercado rápidamente

En la industria de la conducción autónoma, 2025 se considera el "año de la llegada de VLA", lo que marca el surgimiento de un nuevo paradigma tecnológico. VLA, o Modelo de Visión-Lenguaje-Acción (Vision-Language-Action Model), fue propuesto inicialmente por DeepMind en 2023, con el objetivo de mejorar la comprensión y capacidad de respuesta de los robots al entorno. En los últimos años, esta tecnología ha recibido una gran atención en el campo de la conducción autónoma. En comparación con los modelos tradicionales de visión-lenguaje (VLM), VLA

NVIDIA lanza NVILA, un nuevo modelo de lenguaje visual que supera a GPT-4o Mini y Llama 3.2

Recientemente, NVIDIA presentó NVILA, su nuevo modelo de lenguaje visual abierto. Diseñado para optimizar la precisión y la eficiencia, NVILA se ha establecido como un líder en el campo de la IA visual gracias a su rendimiento excepcional. Según NVIDIA, NVILA reduce en 4,5 veces el coste de entrenamiento, en 3,4 veces la memoria necesaria para el ajuste fino y casi en 2 veces la latencia en el relleno previo y la decodificación. Estas cifras se basan en comparaciones con otro gran modelo de visión LLaVa OneVision. En el benchmark de vídeo...