Chegou o modelo open source mais poderoso! Llama3.1 supera o GPT-4o com 405B parâmetros

No mundo da inteligência artificial, a batalha entre código aberto e código fechado nunca cessou. Agora, o lançamento do modelo Llama 3.1 da Meta AI parece marcar um ponto de inflexão nessa disputa. Isso não é apenas o lançamento de um modelo, mas um sinal de maturidade da IA de código aberto, prenunciando uma nova era.

Llama 3.1 é a nova geração de modelos de linguagem grandes desenvolvida pela equipe Meta AI. Em mais de 150 testes de referência, sua versão com 405 bilhões de parâmetros não apenas igualou os modelos de ponta existentes, GPT-4o e Claude 3.5 Sonnet, mas também os superou em alguns aspectos. Essa conquista marca a primeira vez que um modelo de IA de código aberto se iguala em desempenho aos modelos de código fechado.

Para treinar o modelo Llama 3.1 de 405 bilhões de parâmetros, a Meta otimizou significativamente toda a pilha de treinamento e, pela primeira vez, expandiu a escala de poder computacional do modelo para mais de 16.000 GPUs H100. Utilizando a arquitetura Transformer de decodificador apenas padrão, com pequenas modificações, e um processo iterativo de pós-treinamento, cada rodada inclui SFT (ajuste fino supervisionado) e DPO (otimização de preferência direta) para melhorar o desempenho.

A Meta melhorou a capacidade do modelo de responder a instruções do usuário, aumentando sua capacidade de seguir instruções detalhadas, garantindo simultaneamente a segurança. Na fase de pós-treinamento, foram realizadas várias rodadas de alinhamento, utilizando dados sintéticos para gerar a maioria dos exemplos de SFT e empregando várias técnicas de processamento de dados para filtrar os dados até a mais alta qualidade.

Destaques técnicos:

Extensão do comprimento do contexto: O Llama 3.1 estendeu o comprimento do contexto para 128K, o que significa que o modelo pode lidar com tarefas mais complexas e entender informações de texto mais longas.
Suporte multilíngue: O modelo adicionou suporte para oito idiomas, incluindo inglês, francês, alemão, hindi, italiano, português, espanhol e tailandês, aumentando significativamente a versatilidade do modelo.
Desempenho excepcional: O Llama 3.1 demonstrou desempenho excepcional em áreas como conhecimento geral, manipulação, matemática, uso de ferramentas e tradução multilíngue.
O Llama 3.1 foi treinado em mais de 15 trilhões de tokens, uma escala de treinamento sem precedentes na indústria.
Arquitetura do modelo: O Llama 3.1 utiliza a arquitetura Transformer de decodificador apenas padrão, com ajustes menores para melhorar o desempenho do modelo.

O CEO da Meta, Mark Zuckerberg, em entrevista, disse que a IA de código aberto será um ponto de virada para a indústria. Ele enfatizou que a IA de código aberto tem vantagens em termos de abertura, modificabilidade e eficiência de custo, e impulsionará a popularização e o desenvolvimento da tecnologia de IA.

A IA de código aberto permite que os desenvolvedores modifiquem livremente o código, protejam a segurança dos dados e forneçam modelos eficientes e acessíveis. Além disso, a IA de código aberto desenvolve-se rapidamente e tem o potencial de se tornar o padrão a longo prazo.

A Meta está colaborando com várias empresas para desenvolver um ecossistema mais amplo, apoiando os desenvolvedores a ajustar e destilar seus próprios modelos. Esses modelos estarão disponíveis em todas as principais plataformas de nuvem, incluindo AWS, Azure, Google e Oracle.

O lançamento do Llama 3.1 sugere que a inteligência artificial de código aberto pode se tornar o padrão da indústria, abrindo novos caminhos para a popularização e aplicação da IA.

Introdução oficial detalhada: https://ai.meta.com/blog/meta-llama-3-1/

Notícias e Informações de IA

Chegou o modelo open source mais poderoso! Llama3.1 supera o GPT-4o com 405B parâmetros

AIbase基地