O Llama3.1 vazou! Você não ouviu errado, este modelo de código aberto com 405 bilhões de parâmetros causou um grande rebuliço no Reddit. Este pode ser o modelo de código aberto mais próximo do GPT-4o até agora, e até mesmo o supera em alguns aspectos.

O Llama3.1 é um grande modelo de linguagem desenvolvido pela Meta (anteriormente Facebook). Embora ainda não tenha sido lançado oficialmente, a versão vazada causou sensação na comunidade. Este modelo não inclui apenas o modelo básico, mas também os resultados de testes comparativos de 8B, 70B e o maior com 405B de parâmetros.

image.png

Comparação de desempenho: Llama3.1 vs GPT-4o

De acordo com os resultados de comparação vazados, mesmo a versão de 70B do Llama3.1 superou o GPT-4o em vários testes comparativos. Esta é a primeira vez que um modelo de código aberto atinge o nível SOTA (State of the Art, ou seja, o estado da arte) em vários benchmarks, fazendo-nos exclamar: o poder do código aberto é realmente impressionante!

2.jpg

Destaques do modelo: Suporte multilíngue, dados de treinamento mais abrangentes

O modelo Llama3.1 foi treinado usando mais de 15 trilhões de tokens de fontes públicas, com data de treinamento até dezembro de 2023. Ele suporta não apenas inglês, mas também francês, alemão, hindi, italiano, português, espanhol e tailandês, entre outras línguas. Isso o torna excelente em casos de uso de conversação multilíngue.

3.jpg

A equipe de pesquisa do Llama3.1 deu muita importância à segurança do modelo. Eles usaram métodos de coleta de dados multifacetados, combinando dados gerados por humanos com dados sintéticos, para reduzir os riscos de segurança potenciais. Além disso, o modelo introduziu prompts de limite e prompts adversários para melhorar o controle de qualidade dos dados.

Fonte da ficha do modelo: https://pastebin.com/9jGkYbXY#google_vignette