Recientemente, Cohere anunció el lanzamiento de dos nuevos modelos de IA de código abierto, diseñados para reducir la brecha lingüística en los modelos básicos a través de su proyecto Aya. Estos nuevos modelos, llamados Aya Expanse 8B y 35B, ya están disponibles en Hugging Face. El lanzamiento de estos dos modelos ha mejorado significativamente el rendimiento de la IA en 23 idiomas.

image.png

Cohere declaró en su blog que el modelo de 8B parámetros permite a los investigadores de todo el mundo acceder más fácilmente a avances, mientras que el modelo de 32B parámetros ofrece capacidades multilingües líderes en la industria.

El objetivo del proyecto Aya es ampliar el acceso a modelos básicos para más idiomas que no sean el inglés. Antes de esto, el departamento de investigación de Cohere lanzó el proyecto Aya el año pasado y en febrero publicó el modelo de lenguaje grande (LLM) Aya101, que abarca 101 idiomas. Además, Cohere lanzó el conjunto de datos Aya para ayudar en el entrenamiento de modelos en otros idiomas.

Los modelos Aya Expanse emplearon muchos de los métodos centrales de Aya101 durante su construcción. Cohere afirma que las mejoras de Aya Expanse se basan en años de repensar los bloques de construcción centrales en el campo de los avances en el aprendizaje automático. Su investigación se centró en reducir la brecha lingüística, logrando avances clave como el arbitraje de datos, el entrenamiento de preferencias para el rendimiento y la seguridad generales, y la fusión de modelos.

En varias pruebas de referencia, Cohere afirma que los dos modelos Aya Expanse superaron a los modelos de IA de tamaño similar de empresas como Google, Mistral y Meta.

Aya Expanse 32B, en particular, superó a Gemma 227B, Mistral 8x22B e incluso al mayor Llama 3 170B en pruebas de referencia multilingües. El modelo 8B más pequeño también superó a Gemma 29B, Llama 3 18B y Ministral 8B, con tasas de éxito que oscilan entre el 60,4% y el 70,6%.

image.png

Para evitar la generación de contenido difícil de entender, Cohere utilizó un método de muestreo de datos llamado arbitraje de datos. Este método permite entrenar mejor los modelos, especialmente para idiomas con pocos recursos. Además, Cohere se centró en guiar a los modelos hacia "preferencias globales", teniendo en cuenta las perspectivas de diferentes culturas e idiomas, lo que mejora el rendimiento y la seguridad del modelo.

El proyecto Aya de Cohere busca garantizar que los LLM tengan un mejor rendimiento en la investigación de idiomas que no sean el inglés. Si bien muchos LLM eventualmente lanzarán versiones en otros idiomas, a menudo enfrentan una escasez de datos al entrenar modelos, especialmente para idiomas con pocos recursos. Por lo tanto, los esfuerzos de Cohere son particularmente importantes para ayudar a construir modelos de IA multilingües.

Blog oficial: https://cohere.com/blog/aya-expanse-connecting-our-world

Puntos clave:

🌍 **Cohere lanza dos nuevos modelos de IA** para reducir la brecha lingüística en los modelos básicos, mejorando el rendimiento en 23 idiomas.

💡 **Los modelos Aya Expanse muestran un rendimiento excepcional**, superando a muchos competidores en pruebas de referencia multilingües.

🔍 **El método de arbitraje de datos** ayuda a los modelos a evitar generar contenido de baja calidad, centrándose en las perspectivas culturales y lingüísticas globales para mejorar el entrenamiento de la IA multilingüe.