Recentemente, a Cohere anunciou o lançamento de dois novos modelos de IA de código aberto, projetados para reduzir a lacuna de linguagem em modelos básicos por meio de seu projeto Aya. Os dois novos modelos, chamados Aya Expanse 8B e 35B, estão agora disponíveis no Hugging Face. O lançamento desses dois modelos resultou em uma melhoria significativa no desempenho da IA em 23 idiomas.

image.png

Em seu blog, a Cohere afirma que o modelo de 8B parâmetros facilita o acesso a avanços para pesquisadores globais, enquanto o modelo de 32B parâmetros oferece capacidades multilínguas líderes do setor.

O objetivo do projeto Aya é expandir o acesso a modelos básicos para mais idiomas além do inglês. Antes disso, a equipe de pesquisa da Cohere lançou o projeto Aya no ano passado e, em fevereiro, lançou o modelo de linguagem grande (LLM) Aya101, que abrange 101 idiomas. Além disso, a Cohere lançou o conjunto de dados Aya para auxiliar no treinamento de modelos em outros idiomas.

Os modelos Aya Expanse utilizaram muitos dos métodos centrais do Aya101 em sua construção. A Cohere afirma que as melhorias do Aya Expanse são baseadas em anos de repensar os blocos de construção centrais no campo dos avanços em aprendizado de máquina. Sua pesquisa se concentrou na redução da lacuna de linguagem, alcançando avanços importantes, como arbitragem de dados, treinamento de preferências para desempenho e segurança gerais e fusão de modelos.

Em vários testes de referência, a Cohere afirma que os dois modelos Aya Expanse superaram modelos de IA de tamanho semelhante de empresas como Google, Mistral e Meta.

O Aya Expanse 32B superou o Gemma 227B, o Mistral 8x22B e até mesmo o maior Llama 3.170B em testes de referência multilínguas. O menor modelo de 8B também superou o Gemma 29B, o Llama 3.18B e o Ministral 8B, com taxas de vitória variando de 60,4% a 70,6%.

image.png

Para evitar a geração de conteúdo incompreensível, a Cohere utilizou um método de amostragem de dados chamado arbitragem de dados. Este método permite um treinamento de modelo mais eficaz, especialmente para idiomas com poucos recursos. Além disso, a Cohere se concentrou em direcionar o modelo para "preferências globais", considerando perspectivas culturais e linguísticas diversas, melhorando assim o desempenho e a segurança do modelo.

O projeto Aya da Cohere visa garantir que os LLMs tenham um desempenho melhor na pesquisa de idiomas que não sejam o inglês. Embora muitos LLMs acabem lançando versões em outros idiomas, eles frequentemente enfrentam a escassez de dados durante o treinamento do modelo, especialmente para idiomas com poucos recursos. Portanto, os esforços da Cohere são extremamente importantes para ajudar a construir modelos de IA multilínguas.

Blog oficial: https://cohere.com/blog/aya-expanse-connecting-our-world

Destaques:

🌍 **A Cohere lança dois novos modelos de IA** dedicados a reduzir a lacuna de linguagem em modelos básicos, suportando melhorias de desempenho em 23 idiomas.

💡 **Os modelos Aya Expanse apresentam desempenho excepcional,** superando muitos concorrentes em testes de referência multilínguas.

🔍 **O método de arbitragem de dados** ajuda os modelos a evitar a geração de conteúdo de baixa qualidade, focando em perspectivas culturais e linguísticas globais, melhorando a eficácia do treinamento de IA multilíngue.