jina-clip-v2 es un modelo de incrustaciones multimodales y multilingües desarrollado por Jina AI, que admite la recuperación de imágenes en 89 idiomas, puede procesar imágenes con una resolución de 512x512 píxeles y ofrece salidas de diferentes dimensiones, desde 64 hasta 1024, para adaptarse a las diversas necesidades de almacenamiento y procesamiento. El modelo combina el potente codificador de texto Jina-XLM-RoBERTa y el codificador visual EVA02-L14, creando mediante entrenamiento conjunto representaciones alineadas de imágenes y texto. jina-clip-v2 ofrece una capacidad más precisa y fácil de usar en la búsqueda y recuperación multimodales, especialmente en la superación de las barreras lingüísticas y en la comprensión y recuperación multimodales.