A Nvidia, empresa líder global em inteligência artificial, recentemente lançou dois novos modelos grandes de código aberto: Nemotron-4-Minitron-4B e Nemotron-4-Minitron-8B. O lançamento desses modelos representa não apenas um avanço tecnológico, mas também uma revolução de eficiência no campo da IA.
O treinamento tradicional de grandes modelos de IA requer grandes quantidades de dados e poder computacional. No entanto, a Nvidia, usando métodos de treinamento eficientes como poda estruturada e destilação do conhecimento, reduziu significativamente essa necessidade. Especificamente, em comparação com o treinamento do zero, os novos modelos exigem 40 vezes menos dados de tokens de treinamento e 1,8 vezes menos custo computacional. Este sucesso é resultado da otimização profunda do modelo existente Llama-3.18B pela Nvidia.
A poda estruturada é uma técnica de compressão de redes neurais que simplifica a estrutura do modelo removendo pesos insignificantes. Diferentemente da poda aleatória, a poda estruturada preserva a estrutura da matriz de pesos, removendo neurônios inteiros ou cabeças de atenção, tornando o modelo podado mais adequado para execução eficiente em hardware como GPUs e TPUs.
A destilação do conhecimento é um método que melhora o desempenho permitindo que um modelo "estudante" imite um modelo "professor". Na prática da Nvidia, por meio da destilação do conhecimento baseada em logit, o modelo estudante consegue aprender a compreensão profunda do modelo professor, mantendo um desempenho excelente mesmo com uma redução significativa nos dados de treinamento.
Os modelos Minitron-4B e Minitron-8B, treinados com poda estruturada e destilação do conhecimento, apresentaram uma melhoria de 16% na pontuação MMLU, com desempenho comparável a modelos conhecidos como Mistral7B, Gemma7B e Llama-38B. Este resultado demonstra a eficácia do método da Nvidia e oferece novas possibilidades para o treinamento e implantação de grandes modelos de IA.
Esta iniciativa de código aberto da Nvidia não apenas demonstra sua liderança em tecnologia de IA, mas também fornece recursos valiosos para a comunidade de IA. Com o contínuo avanço da tecnologia de IA, esperamos ver mais métodos inovadores que impulsionem a IA em direção a uma direção mais eficiente e inteligente.
Endereço dos modelos:
https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base
https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base