Recentemente, a NVIDIA fez novos avanços no campo da inteligência artificial, lançando a série de modelos de linguagem pequenos Minitron, com versões de 4B e 8B. Esses modelos não apenas aumentam a velocidade de treinamento em impressionantes 40 vezes, mas também facilitam o uso por desenvolvedores em diversos aplicativos, como tradução, análise de sentimentos e IA conversacional.

image.png

Você pode estar se perguntando: por que modelos de linguagem pequenos são tão importantes? Na verdade, embora os modelos de linguagem grandes tradicionais ofereçam desempenho robusto, seus custos de treinamento e implantação são extremamente altos, exigindo vastos recursos computacionais e dados. Para tornar essas tecnologias avançadas acessíveis a um público maior, a equipe de pesquisa da NVIDIA desenvolveu uma solução brilhante: combinar as técnicas de "poda" (pruning) e "destilação de conhecimento" (knowledge distillation) para reduzir eficientemente o tamanho do modelo.

Especificamente, os pesquisadores começam com um modelo grande existente e o podam. Eles avaliam a importância de cada neurônio, camada ou cabeçote de atenção no modelo e removem as partes menos importantes. Isso resulta em um modelo muito menor, reduzindo significativamente os recursos e o tempo necessários para o treinamento. Em seguida, eles treinam o modelo podado usando um conjunto de dados menor por meio da destilação de conhecimento, restaurando assim a precisão do modelo. Surpreendentemente, esse processo não apenas reduz custos, mas também melhora o desempenho do modelo!

Em testes práticos, a equipe de pesquisa da NVIDIA obteve excelentes resultados na família de modelos Nemotron-4. Eles conseguiram reduzir o tamanho do modelo em 2 a 4 vezes, mantendo um desempenho semelhante. Mais emocionante ainda, o modelo de 8B superou outros modelos conhecidos, como Mistral7B e LLaMa-38B, em vários indicadores, além de exigir 40 vezes menos dados de treinamento e 1,8 vezes menos custo computacional durante o treinamento. Imagine o que isso significa: mais desenvolvedores podem experimentar o poder da IA com menos recursos e custos!

A NVIDIA disponibilizou esses modelos Minitron otimizados em código aberto no Huggingface, para uso livre por todos.

image.png

Link para demonstração: https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

Destaques:

📈 **Aumento da velocidade de treinamento**: Os modelos Minitron são 40 vezes mais rápidos para treinar do que os modelos tradicionais, economizando tempo e esforço para os desenvolvedores.

💡 **Redução de custos**: Através das técnicas de poda e destilação de conhecimento, os recursos computacionais e a quantidade de dados necessários para o treinamento são reduzidos significativamente.

🌍 **Compartilhamento de código aberto**: Os modelos Minitron foram disponibilizados em código aberto no Huggingface, permitindo que mais pessoas acessem e usem facilmente, promovendo a disseminação da tecnologia de IA.