Cohere ha logrado un gran avance en su modelo de búsqueda Embed3, integrando por primera vez la búsqueda de imágenes y la recuperación de texto sin problemas. Esta innovación permite a las empresas buscar imágenes y texto de forma unificada en una sola base de datos, revolucionando la gestión de grandes cantidades de imágenes de productos, archivos de diseño e informes.
A nivel técnico, el nuevo sistema utiliza una arquitectura de almacenamiento unificada, resolviendo el problema de las empresas que necesitan mantener múltiples bases de datos independientes. El sistema admite los formatos de imagen más comunes como PNG, JPEG, WebP y GIF, con un límite de tamaño de archivo de 5 MB por archivo. Actualmente, el sistema solo admite la búsqueda de imágenes individuales; la función de procesamiento por lotes está aún en desarrollo.
Gracias a su tecnología subyacente, el sistema convierte los datos comerciales en representaciones vectoriales, lo que mejora considerablemente la eficiencia de la recuperación de datos empresariales complejos. Los desarrolladores pueden acceder a la nueva funcionalidad a través de la API Embed existente; las imágenes deben enviarse como URL de datos codificadas en Base64.
Cabe destacar que el modelo actualizado admite más de 100 idiomas y ofrece una gran compatibilidad entre plataformas. Además de ejecutarse en la propia plataforma de Cohere, también se puede implementar en Microsoft Azure y Amazon SageMaker. Esta empresa, fundada por el equipo de desarrollo de la arquitectura Transformer, recibió una financiación de 500 millones de dólares en julio del año pasado.
En un contexto en el que la búsqueda de contenido multimodal es cada vez más importante, gigantes tecnológicos como Google y OpenAI también han lanzado productos similares. Actualmente, el foco de la competencia se centra en la velocidad de procesamiento, la precisión y la seguridad necesarias para las aplicaciones empresariales.