El laboratorio de investigación sin fines de lucro de la startup de inteligencia artificial Cohere lanzó esta semana Aya Vision, un modelo de IA "abierto" multimodal que, según el laboratorio, está a la vanguardia de la industria.
Aya Vision puede realizar varias tareas, incluyendo la redacción de descripciones de imágenes, responder preguntas relacionadas con fotos, traducir texto y generar resúmenes en 23 idiomas principales. Cohere afirma que ofrece Aya Vision gratuitamente a través de WhatsApp para facilitar el acceso a los avances tecnológicos a investigadores de todo el mundo.
Cohere señala en su blog que, a pesar de los notables avances en inteligencia artificial, todavía existe una gran brecha en el rendimiento de los modelos entre diferentes idiomas, especialmente en tareas multimodales que involucran texto e imágenes. "El objetivo de Aya Vision es ayudar a reducir esta brecha".
Aya Vision tiene dos versiones: Aya Vision 32B y Aya Vision 8B. La más avanzada, Aya Vision 32B, denominada "nueva frontera", supera en algunas pruebas de referencia de comprensión visual a modelos dos veces más grandes, incluyendo Llama-3.290B Vision de Meta. Mientras tanto, Aya Vision 8B también supera en algunas evaluaciones a modelos diez veces más grandes.
Ambos modelos están disponibles en la plataforma de desarrollo de IA Hugging Face bajo la licencia Creative Commons 4.0, sujetos al apéndice de uso aceptable de Cohere y no pueden utilizarse para aplicaciones comerciales.
Cohere indica que Aya Vision se entrenó con un conjunto de datos de inglés "diverso", que el laboratorio tradujo y utilizó para entrenar con anotaciones sintéticas. Las anotaciones sintéticas son anotaciones generadas por IA que ayudan al modelo a comprender e interpretar los datos durante el entrenamiento. Aunque los datos sintéticos tienen posibles inconvenientes, competidores como OpenAI los utilizan cada vez más para entrenar sus modelos.
Cohere señala que el entrenamiento de Aya Vision con anotaciones sintéticas les permitió reducir el uso de recursos y, al mismo tiempo, lograr un rendimiento competitivo. "Esto demuestra nuestro compromiso con la eficiencia, logrando más resultados con menos recursos informáticos".
Para apoyar aún más a la comunidad investigadora, Cohere también lanzó un nuevo conjunto de herramientas de evaluación de referencia, AyaVisionBench, diseñadas para evaluar la capacidad del modelo en tareas que combinan visión y lenguaje, como identificar las diferencias entre dos imágenes y convertir capturas de pantalla en código.
Actualmente, la industria de la IA se enfrenta a la llamada "crisis de evaluación", principalmente debido al uso generalizado de pruebas de referencia populares cuya puntuación total tiene poca correlación con las capacidades en las tareas que preocupan a la mayoría de los usuarios de IA. Cohere afirma que AyaVisionBench ofrece un marco "amplio y desafiante" para evaluar la comprensión multimodal y multilingüe de los modelos.
Blog oficial: https://cohere.com/blog/aya-vision
Puntos clave:
🌟 Cohere califica el modelo Aya Vision como el mejor de la industria, capaz de realizar múltiples tareas de lenguaje y visión.
💡 Aya Vision tiene dos versiones, 32B y 8B, que superan a modelos de la competencia mucho más grandes.
🔍 Cohere también lanzó una nueva herramienta de evaluación de referencia, AyaVisionBench, para mejorar los problemas de evaluación de modelos de IA.