A Meta lançou recentemente a nova geração de modelos de código aberto Llama 3.1, incluindo uma versão com 405 bilhões de parâmetros, cujo desempenho se aproxima ou mesmo supera, em alguns benchmarks, modelos proprietários como o GPT-4. O Llama 3.1-8B-Instruct, uma versão com 8 bilhões de parâmetros desta série, suporta inglês, alemão, francês, italiano, português, espanhol, hindi e tailandês, com comprimento de contexto de até 131.072 tokens e conhecimento atualizado até dezembro de 2023.

Para aprimorar as capacidades do Llama 3.1-8B-Instruct, a Meta utilizou mais de 25 milhões de dados sintéticos durante o treinamento, gerados por um modelo maior de 405 bilhões de parâmetros. Isso permitiu que o Llama 3.1-8B-Instruct apresentasse capacidades de cognição e raciocínio semelhantes ao GPT-3.5 Turbo em testes de código, matemática, etc.

微信截图_20240725083410.png

Aproveitando o modelo Llama 3.1-8B-Instruct, o OpenBuddy, através de treinamento em um pequeno conjunto de dados em chinês, lançou o OpenBuddy-Llama3.1-8B-v22.1-131K, um modelo multilíngue de código aberto de nova geração com capacidade de resposta em chinês e tradução entre idiomas. Embora o Llama 3.1 em si não possua capacidade em chinês, após o treinamento, este modelo consegue gerar respostas em questões que facilmente geram confusão conceitual, respostas normalmente produzidas apenas por modelos maiores, demonstrando um potencial cognitivo mais robusto.

No entanto, devido às limitações do conjunto de dados de treinamento e do tempo, o OpenBuddy-Llama3.1-8B-v22.1 ainda apresenta limitações no conhecimento chinês, especialmente em relação à cultura tradicional. Apesar disso, o modelo demonstra desempenho relativamente estável em tarefas como compreensão de textos longos, graças à sua capacidade inerente de lidar com textos longos.

No futuro, o OpenBuddy planeja treinar modelos de 8B e 70B em maior escala para aumentar o conhecimento em chinês, a capacidade de lidar com textos longos e a capacidade cognitiva, além de explorar a possibilidade de ajustar finamente o modelo de 405B parâmetros.

Endereço do projeto:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k