NVIDIA a récemment lancé NVILA, un nouveau modèle linguistique visuel ouvert de nouvelle génération. Conçu pour optimiser la précision et l'efficacité, il se distingue par ses performances exceptionnelles et s'impose comme un leader dans le domaine de l'IA visuelle.

Selon NVIDIA, NVILA réduit de 4,5 fois le coût d'entraînement, de 3,4 fois la mémoire nécessaire au réglage fin, et presque de 2 fois les délais de préremplissage et de décodage. Ces données sont comparées à un autre grand modèle visuel, LLaVa OneVision.

image.png

Lors de tests de référence vidéo, NVILA a surpassé GPT4o Mini et a également démontré d'excellentes performances par rapport à GPT4o, Sonnet3.5 et Gemini1.5Pro. De plus, NVILA a remporté une victoire serrée face à Llama3.2. Néanmoins, NVIDIA précise que le modèle n'est pas encore disponible sur la plateforme Hugging Face, mais promet une publication rapide du code et du modèle pour favoriser la reproductibilité des recherches.

NVIDIA souligne le coût extrêmement élevé de l'entraînement des modèles linguistiques visuels : l'entraînement d'un modèle linguistique visuel de 7 milliards de paramètres nécessite environ 400 jours de GPU. De plus, le réglage fin de ces modèles est très gourmand en mémoire, un modèle de 7 milliards de paramètres nécessitant plus de 64 Go de mémoire GPU.

C'est pourquoi NVIDIA a adopté une technique appelée « extension puis compression », visant à équilibrer la précision et l'efficacité du modèle. Au lieu de réduire la taille des photos et des vidéos en entrée, le modèle utilise des images et des vidéos haute résolution ainsi que plusieurs images, garantissant ainsi qu'aucun détail n'est perdu.

image.png

Lors de la compression, le modèle réduit la taille des données d'entrée en compressant les informations visuelles en un nombre réduit de jetons et en regroupant les pixels pour conserver les informations importantes. NVIDIA mentionne dans son article que le doublement de la résolution doublerait le nombre de jetons visuels, ce qui augmenterait les coûts d'entraînement et d'inférence de plus de deux fois. Par conséquent, ils réduisent ces coûts en compressant les jetons spatio-temporels.

NVIDIA a également présenté des démonstrations du modèle : NVILA est capable de répondre à plusieurs requêtes à partir d'une seule image ou d'une seule vidéo. Ses résultats sont comparés à ceux du modèle VILA1.5 précédemment publié par NVIDIA. De plus, NVIDIA détaille d'autres techniques, telles que l'extension dynamique S2, l'élagage des ensembles de données basé sur DeltaLoss et la quantification utilisant une précision FP8.

Ces techniques sont appliquées à un modèle de 8 milliards de paramètres. Les détails sont disponibles sur Arxiv.

Lien vers l'article : https://arxiv.org/pdf/2412.04468

Points clés :

🌟 NVILA réduit de 4,5 fois le coût d'entraînement, améliorant ainsi l'efficacité de l'IA visuelle.

📉 Grâce à des images et des images vidéo haute résolution, NVILA garantit l'intégrité des informations d'entrée.

📊 NVIDIA s'engage à publier rapidement le code et le modèle pour favoriser la reproductibilité des recherches.