A inteligência artificial (IA) está se tornando cada vez mais inteligente, especialmente os grandes modelos de linguagem (LLMs), cuja capacidade de processamento de linguagem natural é impressionante. Mas você sabia que esses cérebros de IA inteligentes exigem enorme capacidade de computação e armazenamento?
Um modelo multilíngue com 176 bilhões de parâmetros, como o Bloom, requer pelo menos 350 GB de espaço apenas para armazenar os pesos do modelo, e sua execução exige várias GPUs de última geração. Isso não é apenas caro, mas também dificulta a popularização.
Para resolver esse problema, os pesquisadores propuseram uma técnica chamada "quantização". A quantização é como colocar a IA em uma "dieta", mapeando os pesos e ativações do modelo para formatos de dados de menor precisão, reduzindo o tamanho do modelo e acelerando sua execução. No entanto, esse processo também apresenta riscos, podendo resultar em perda de precisão.
Diante desse desafio, pesquisadores da Universidade de Aeronáutica e Astronáutica de Pequim e da SenseTime uniram forças para desenvolver o kit de ferramentas LLMC. O LLMC é como um personal trainer para IA, ajudando pesquisadores e desenvolvedores a encontrar o melhor "plano de dieta", tornando os modelos de IA mais leves sem afetar seu "nível de inteligência".
O kit de ferramentas LLMC possui três principais características:
Diversidade: O LLMC oferece 16 métodos de quantização diferentes, como se estivesse preparando 16 dietas diferentes para a IA. Seja para uma dieta geral ou localizada, o LLMC atende às suas necessidades.
Baixo custo: O LLMC é muito econômico em termos de recursos, exigindo apenas suporte de hardware mínimo, mesmo para modelos extremamente grandes. Por exemplo, apenas uma GPU A100 de 40 GB é suficiente para ajustar e avaliar o modelo OPT-175B com 175 bilhões de parâmetros. É como treinar um campeão olímpico usando uma esteira doméstica!
Alta compatibilidade: O LLMC suporta várias configurações de quantização e formatos de modelo, além de ser compatível com várias backends e plataformas de hardware. É como um treinador universal que pode criar um plano de treinamento adequado, independentemente do equipamento utilizado.
Aplicações práticas do LLMC: IA mais inteligente e eficiente em termos de energia
O kit de ferramentas LLMC fornece um teste de referência abrangente e imparcial para a quantização de grandes modelos de linguagem. Ele considera três fatores-chave: dados de treinamento, algoritmos e formato de dados, ajudando os usuários a encontrar a melhor solução de otimização de desempenho.
Na prática, o LLMC ajuda pesquisadores e desenvolvedores a integrar algoritmos e formatos de baixo bit mais adequados de forma mais eficiente, impulsionando a compressão e popularização de grandes modelos de linguagem. Isso significa que, no futuro, poderemos ver mais aplicativos de IA leves, mas igualmente poderosos.
Os autores do artigo também compartilharam algumas descobertas e sugestões interessantes:
Ao selecionar dados de treinamento, deve-se optar por conjuntos de dados com distribuição de vocabulário mais semelhante aos dados de teste, assim como as pessoas devem escolher dietas adequadas às suas necessidades individuais.
Em relação aos algoritmos de quantização, eles exploraram o impacto das três principais técnicas: conversão, corte e reconstrução, como comparar diferentes exercícios para perda de peso.
Na escolha entre quantização de inteiros ou ponto flutuante, eles descobriram que a quantização de ponto flutuante é mais vantajosa no tratamento de situações complexas, enquanto a quantização de inteiros pode ser melhor em alguns casos específicos. É como usar diferentes intensidades de exercícios em diferentes fases de uma dieta.
O lançamento do kit de ferramentas LLMC trouxe uma nova onda para o campo da IA. Ele não apenas fornece uma ferramenta poderosa para pesquisadores e desenvolvedores, mas também aponta o caminho para o futuro desenvolvimento da IA. Com o LLMC, podemos esperar ver mais aplicativos de IA leves e eficientes, tornando a IA verdadeiramente parte do nosso dia a dia.
Endereço do projeto: https://github.com/ModelTC/llmc
Endereço do artigo: https://arxiv.org/pdf/2405.06001