PaLI-3: Un Modelo de Lenguaje Visual Compacto

Google ha lanzado PaLI-3, un modelo de lenguaje visual compacto que ha alcanzado un rendimiento de vanguardia (SOTA). Utilizando un método de preentrenamiento contrastivo, se ha investigado a fondo el potencial de los modelos de visión-texto (VIT), logrando un rendimiento SOTA en la recuperación multimodal multilingüe.

PaLI-3 fusiona la comprensión del lenguaje natural y el reconocimiento de imágenes, convirtiéndose en una fuerza importante en la innovación de la IA. El método de preentrenamiento contrastivo basado en SigLIP ha abierto una nueva era en la recuperación multimodal multilingüe.

Aunque aún no se ha lanzado completamente como código abierto, se proporcionan modelos SigLIP multilingües e ingleses, ofreciendo a los investigadores la oportunidad de experimentarlos.