Pequeno, mas poderoso! Equipe de 10 pessoas treina o primeiro Llama 3.1 405B ajustado

Uma pequena equipe de apenas 10 pessoas ousou desafiar a gigante tecnológica Meta, em uma verdadeira história de "Davi contra Golias"!

A startup Nous Research não é nenhuma desconhecida. Seu recém-lançado Hermes3, um modelo de 405B baseado no Llama3.1 e finamente ajustado, prova isso. Apesar do pequeno tamanho da equipe, seu poder não pode ser subestimado. Este "time de dez" já ajustou com sucesso vários modelos, incluindo Mistral, Yi e Llama, com mais de 33 milhões de downloads – uma verdadeira "máquina de sucessos" no mundo da IA!

O surgimento do Hermes3 foi como uma injeção de ânimo no mundo da IA. Mesmo após a quantização FP8, seu desempenho continua impressionante. Essa otimização não apenas reduz drasticamente as necessidades de VRAM e disco do modelo, mas também permite que o Hermes3 seja executado em um único nó, uma verdadeira bênção para os desenvolvedores!

Em termos de capacidade de diálogo, o Hermes3 é um multitarefas. Ele lida com facilidade com memória de longo prazo, conversas multiturnos, interpretação de papéis e até mesmo monólogos internos. Graças à janela de contexto de 128K do Llama3.1, o Hermes3 mantém a coerência da conversa como um diplomata experiente.

Mas as habilidades do Hermes3 vão além disso. Ele demonstra uma série de capacidades avançadas que superam os modelos tradicionais de linguagem, conseguindo entender e avaliar a qualidade do texto gerado de forma precisa e sutil. Isso significa que ele não apenas fala bem, mas também pode ser um crítico de texto rigoroso!

Ainda mais impressionante é que o Hermes3 integra várias capacidades de agente, incluindo saída estruturada, geração de passos intermediários e geração de monólogos internos para tomada de decisões transparentes. É como se a IA tivesse um "cérebro transparente", permitindo-nos observar seu processo de pensamento.

O treinamento do Hermes3 foi uma verdadeira "maratona" no mundo da IA. Ele passou por duas fases: ajuste supervisionado (SFT) e otimização de preferência direta (DPO). A equipe levou cinco meses inteiros para selecionar e construir o conjunto de dados SFT, uma dedicação e paciência admiráveis.

A Nous Research, um grupo de pesquisa aplicada privada fundado em 2023 e sediado em Nova York, é uma verdadeira "invasão bárbara" no mundo da IA. Eles acreditam no poder do código aberto e desafiam as restrições à inovação impostas pelas tecnologias fechadas. O lema da empresa é inspirador: "Nós desafiamos a suposição de que a tecnologia fechada sempre dominará o ápice da inovação; em vez disso, oferecemos código aberto poderoso."

Em pouco mais de um ano, a Nous Research lançou 5 conjuntos de dados e 89 modelos, uma produtividade que parece anunciar ao mundo: tamanho não importa, o que conta é a capacidade!

Endereço do artigo: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

Apresentação oficial: https://nousresearch.com/freedom-at-the-frontier-hermes-3/

Notícias e Informações de IA

Pequeno, mas poderoso! Equipe de 10 pessoas treina o primeiro Llama 3.1 405B ajustado

AIbase基地