Ontem à noite, a Meta anunciou o lançamento em código aberto de seu mais recente modelo de linguagem grande, Llama 3.1 405B. Essa notícia importante marca o lançamento do modelo da série Llama 3 para o público, após um ano de cuidadoso planejamento, desde a concepção do projeto até a revisão final.

O Llama 3.1 405B é um modelo de uso multilíngue com 128 bilhões de parâmetros. O modelo foi pré-treinado com um comprimento de contexto de 8K e, posteriormente, treinado continuamente com um comprimento de contexto de 128K. De acordo com a Meta, o desempenho deste modelo em várias tarefas é comparável ao do GPT-4, líder do setor.

QQ_1721780387467.png

Em comparação com os modelos Llama anteriores, a Meta fez otimizações em vários aspectos:

  1. Melhora nos processos de pré-processamento e curadoria de dados de pré-treinamento
  2. Melhora nos métodos de garantia e seleção da qualidade dos dados pós-treinamento

O pré-treinamento do modelo 405B foi um grande desafio, envolvendo 15,6 trilhões de tokens e 3,8 x 10^25 operações de ponto flutuante. Para isso, a Meta otimizou toda a arquitetura de treinamento e utilizou mais de 16.000 GPUs H100.

Para suportar a inferência em larga escala do modelo 405B, a Meta quantizou-o de 16 bits (BF16) para 8 bits (FP8), reduzindo significativamente os requisitos de computação e permitindo que um único nó de servidor execute o modelo.

Além disso, a Meta utilizou o modelo 405B para melhorar a qualidade pós-treinamento dos modelos de 70B e 8B. Na fase pós-treinamento, a equipe aprimorou o modelo de bate-papo por meio de múltiplas rodadas de alinhamento, incluindo ajuste fino supervisionado (SFT), amostragem de rejeição e otimização de preferência direta. É importante notar que a maioria das amostras SFT foram geradas usando dados sintéticos.

O Llama 3 também integra recursos de imagem, vídeo e voz, usando um método combinado para permitir que o modelo reconheça imagens e vídeos e suporte interação de voz. No entanto, esses recursos ainda estão em desenvolvimento e não foram lançados oficialmente.

A Meta também atualizou o contrato de licença, permitindo que os desenvolvedores usem a saída dos modelos Llama para melhorar outros modelos.

Os pesquisadores da Meta disseram: "É extremamente emocionante trabalhar na vanguarda da IA ​​com os principais talentos da indústria e publicar os resultados da pesquisa de forma aberta e transparente. Estamos ansiosos para ver as inovações trazidas pelos modelos de código aberto e o potencial dos modelos da série Llama no futuro!"

Essa iniciativa de código aberto certamente trará novas oportunidades e desafios para o campo da IA, impulsionando o desenvolvimento de tecnologias de modelos de linguagem grandes.