Novo Llama 3.2 quantizado da Meta AI: 2x mais rápido, 56% menor, funciona em telefones

Recentemente, a Meta AI lançou o novo modelo quantizado Llama3.2, disponível em versões de 1B e 3B parâmetros. Este modelo pode ser ajustado, destilado e implantado em diversos dispositivos.

Anteriormente, embora modelos como o Llama3 tivessem alcançado feitos notáveis na compreensão e geração de linguagem natural, seu tamanho considerável e alta demanda computacional dificultavam o uso por muitas organizações. O longo tempo de treinamento, o alto consumo de energia e a dependência de hardware caro aumentavam a disparidade entre grandes empresas de tecnologia e pequenas empresas.

Uma das características do Llama3.2 é o suporte a processamento de texto e imagens multilíngues. Os modelos de 1B e 3B parâmetros, após a quantização, reduzem seu tamanho em média 56%, diminuem o uso de memória em 41% e alcançam uma melhoria de velocidade de 2 a 3 vezes, tornando-os ideais para execução em dispositivos móveis e ambientes de computação de borda.

Especificamente, esses modelos empregam estratégias de quantização de 8 e 4 bits, reduzindo a precisão dos pesos e ativações que originalmente eram representados por números de ponto flutuante de 32 bits. Isso resulta em uma redução significativa nas necessidades de memória e capacidade de computação. Isso significa que o modelo Llama3.2 quantizado pode ser executado em GPUs ou até mesmo CPUs de consumo comuns, com pouquíssima perda de desempenho.

Imagine: usuários agora podem executar diversos aplicativos inteligentes em seus smartphones, como resumir discussões em tempo real ou acessar ferramentas de calendário. Tudo isso graças a esses modelos leves.

A Meta AI também colaborou com líderes do setor, como Qualcomm e MediaTek, para implantar esses modelos em sistemas em chip (SoCs) baseados em CPUs Arm, garantindo sua utilização eficiente em uma ampla gama de dispositivos. Testes iniciais indicam que o Llama3.2 quantizado atinge 95% do desempenho do Llama3 nos principais benchmarks de processamento de linguagem natural, com uma redução de quase 60% no uso de memória. Isso é extremamente significativo para empresas e pesquisadores que desejam implementar inteligência artificial sem investir em infraestrutura cara.

O modelo Llama3.2 quantizado lançado pela Meta AI não apenas representa um passo importante para aumentar a acessibilidade da inteligência artificial, mas também resolve alguns problemas centrais no uso de modelos de linguagem de grande escala, como custo e impacto ambiental. Essa tendência de desenvolvimento de modelos eficientes impulsionará, sem dúvida, o desenvolvimento sustentável e inclusivo da inteligência artificial no futuro.

Acesso ao modelo:https://www.llama.com/

Destaques:
🌟 O modelo Llama3.2 quantizado da Meta AI, disponível nas versões 1B e 3B, reduz significativamente o tamanho do modelo e as necessidades de recursos computacionais.
⚡️ A velocidade de inferência do modelo é 2 a 4 vezes mais rápida, sendo adequado para hardware de consumo comum e aplicativos em tempo real.
🌍 O Llama3.2 quantizado apresenta desempenho quase idêntico ao da versão original em processamento de linguagem natural, auxiliando empresas e pesquisadores na implementação de aplicativos de IA.

Notícias e Informações de IA

Novo Llama 3.2 quantizado da Meta AI: 2x mais rápido, 56% menor, funciona em telefones

AIbase基地

Notícias de IA Relacionadas Recomendadas

iFlytek lidera investimento na YunJinWei: criando soluções de computação de borda na faixa de 'dez mil'

郭明錤：Lançamento do L40S da Nvidia pode gerar novos vencedores e beneficiar a computação de borda de IA