Teuken-7B, um modelo de linguagem com 7 bilhões de parâmetros, agora está disponível no Hugging Face, suportando todas as 24 línguas oficiais da União Europeia. Desenvolvido pelo projeto de pesquisa OpenGPT-X da UE, o modelo é de código aberto e disponível para uso pelos usuários. Diferentemente da maioria dos modelos de linguagem AI centrados em inglês, o Teuken-7B foi construído do zero, com aproximadamente metade dos dados de treinamento provenientes de línguas europeias não inglesas.

Cérebro Modelo Grande

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

A equipe de desenvolvimento afirma que o Teuken-7B apresenta um desempenho excelente em todas as línguas em que foi treinado, sendo particularmente impressionante sua confiabilidade no processamento de línguas não inglesas. Para avaliar o desempenho do modelo de linguagem em línguas europeias, a equipe do projeto também criou um novo ranking de LLMs europeus, superando os métodos de teste padrão anteriores, que se baseavam principalmente em inglês.

Este lançamento marca um avanço significativo da Europa na promoção de modelos de inteligência artificial multilíngues, oferecendo também aos desenvolvedores uma ferramenta poderosa e diversificada para apoiar aplicativos e pesquisas multilíngues.