Google lanza PaLI-3, un modelo de lenguaje visual de pequeño tamaño con rendimiento SOTA

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Oct 27, 2023

PaLI-3: Un Modelo de Lenguaje Visual Compacto

Google ha lanzado PaLI-3, un modelo de lenguaje visual compacto que ha alcanzado un rendimiento de vanguardia (SOTA). Utilizando un método de preentrenamiento contrastivo, se ha investigado a fondo el potencial de los modelos de visión-texto (VIT), logrando un rendimiento SOTA en la recuperación multimodal multilingüe.

PaLI-3 fusiona la comprensión del lenguaje natural y el reconocimiento de imágenes, convirtiéndose en una fuerza importante en la innovación de la IA. El método de preentrenamiento contrastivo basado en SigLIP ha abierto una nueva era en la recuperación multimodal multilingüe.

Aunque aún no se ha lanzado completamente como código abierto, se proporcionan modelos SigLIP multilingües e ingleses, ofreciendo a los investigadores la oportunidad de experimentarlos.

Google lanza PaliGemma 2 Mix, un nuevo modelo de lenguaje visual con múltiples funciones para desarrolladores

Recientemente, Google anunció el lanzamiento de un nuevo modelo de lenguaje visual (VLM), llamado PaliGemma2Mix. Este modelo combina las capacidades de procesamiento de imágenes y procesamiento de lenguaje natural, pudiendo comprender simultáneamente información visual y entrada de texto, y generar la salida correspondiente según sea necesario. Esto marca un nuevo avance en el procesamiento de múltiples tareas dentro de la inteligencia artificial. PaliGemma2Mix ofrece funciones muy potentes, incluyendo la descripción de imágenes, el reconocimiento óptico de caracteres

IBM lanza Granite-Vision-3.1-2B, un modelo de lenguaje visual que facilita el análisis de documentos complejos

Con el continuo avance de la inteligencia artificial, la fusión de datos visuales y de texto se ha convertido en un desafío complejo. Los modelos tradicionales suelen tener dificultades para analizar con precisión documentos visuales estructurados como tablas, gráficos, infografías e ilustraciones. Esta limitación afecta la capacidad de extracción y comprensión automática de contenido, lo que a su vez impacta en aplicaciones como el análisis de datos, la recuperación de información y la toma de decisiones. Para abordar esta necesidad, IBM ha lanzado recientemente Granite-Vision-3.1-2B, un modelo de lenguaje visual pequeño diseñado específicamente para la comprensión de documentos.

La tecnología VLA lidera la carrera de la conducción autónoma, Nvidia ayuda a las empresas emergentes a ganar cuota de mercado rápidamente

En la industria de la conducción autónoma, 2025 se considera el "año de la llegada de VLA", lo que marca el surgimiento de un nuevo paradigma tecnológico. VLA, o Modelo de Visión-Lenguaje-Acción (Vision-Language-Action Model), fue propuesto inicialmente por DeepMind en 2023, con el objetivo de mejorar la comprensión y capacidad de respuesta de los robots al entorno. En los últimos años, esta tecnología ha recibido una gran atención en el campo de la conducción autónoma. En comparación con los modelos tradicionales de visión-lenguaje (VLM), VLA

NVIDIA lanza NVILA, un nuevo modelo de lenguaje visual que supera a GPT-4o Mini y Llama 3.2

Recientemente, NVIDIA presentó NVILA, su nuevo modelo de lenguaje visual abierto. Diseñado para optimizar la precisión y la eficiencia, NVILA se ha establecido como un líder en el campo de la IA visual gracias a su rendimiento excepcional. Según NVIDIA, NVILA reduce en 4,5 veces el coste de entrenamiento, en 3,4 veces la memoria necesaria para el ajuste fino y casi en 2 veces la latencia en el relleno previo y la decodificación. Estas cifras se basan en comparaciones con otro gran modelo de visión LLaVa OneVision. En el benchmark de vídeo...