Recentemente, a NVIDIA lançou um novo modelo de linguagem visual aberto de última geração — NVILA. Projetado para otimizar precisão e eficiência, ele se destaca por seu desempenho excepcional, tornando-se um líder no campo da IA visual.

De acordo com a NVIDIA, o NVILA reduziu o custo de treinamento em 4,5 vezes, a memória necessária para ajuste fino em 3,4 vezes e o atraso em preenchimento e decodificação em quase 2 vezes. Esses dados são comparativos com outro grande modelo de visão, o LLaVa OneVision.

image.png

Em testes de benchmark de vídeo, o NVILA superou o GPT4o Mini e apresentou desempenho notável em comparação com GPT4o, Sonnet3.5 e Gemini1.5Pro. Além disso, o NVILA obteve uma pequena vitória na comparação com o Llama3.2. Apesar disso, a NVIDIA afirma que o modelo ainda não foi lançado na plataforma Hugging Face, prometendo disponibilizar o código e o modelo em breve para promover a reprodutibilidade do modelo.

A NVIDIA destaca que o custo de treinamento de modelos de linguagem visual é muito alto, sendo que o treinamento de um modelo de linguagem visual de 7B de parâmetros requer aproximadamente 400 dias de GPU. Ao mesmo tempo, o ajuste fino desses modelos também consome muita memória, com modelos de 7B de parâmetros precisando de mais de 64 GB de memória de GPU.

Portanto, a NVIDIA adotou uma técnica chamada "expansão antes da compressão", buscando equilibrar a precisão e a eficiência do modelo. O modelo não reduz o tamanho das fotos e vídeos de entrada, mas utiliza múltiplos frames de imagens e vídeos de alta resolução para garantir que nenhum detalhe seja perdido.

image.png

Durante a compressão, o modelo reduz o tamanho dos dados de entrada compactando as informações visuais em menos tokens e agrupando pixels para preservar informações importantes. A NVIDIA menciona em seu artigo que o dobro da resolução dobraria a quantidade de tokens visuais, aumentando os custos de treinamento e inferência em mais de 2 vezes. Portanto, eles reduzem esses custos comprimindo os tokens espaço/tempo.

A NVIDIA também mostrou demonstrações do modelo, com o NVILA respondendo a várias consultas com base em uma imagem ou vídeo. Os resultados foram comparados com o modelo VILA1.5, lançado anteriormente pela NVIDIA. Além disso, a NVIDIA detalha outras técnicas, como a expansão dinâmica S2, a poda de conjuntos de dados baseada em DeltaLoss e a quantização usando precisão FP8.

Essas técnicas foram aplicadas a um modelo de 8B de parâmetros, e os detalhes podem ser encontrados no Arxiv.

Link do artigo:https://arxiv.org/pdf/2412.04468

Destaques:

🌟 O modelo NVILA reduziu o custo de treinamento em 4,5 vezes, melhorando a eficiência da IA visual.  

📉 Usando imagens e frames de vídeo de alta resolução, o NVILA garante a integridade das informações de entrada.  

📊 A NVIDIA promete lançar o código e o modelo em breve para promover a reprodutibilidade da pesquisa.