Kürzlich hat NVIDIA sein neues Open-Source-visuell-sprachliches Modell vorgestellt – NVILA. Es wurde entwickelt, um Genauigkeit und Effizienz zu optimieren und zeichnet sich durch herausragende Leistung im Bereich der visuellen KI aus.
Laut NVIDIA reduziert NVILA die Trainingskosten um das 4,5-fache, den für das Feintuning benötigten Speicher um das 3,4-fache und die Latenz beim Pre-Filling und Decodieren um fast das Doppelte. Diese Daten wurden im Vergleich zu einem anderen großen visuellen Modell, LLaVa OneVision, ermittelt.
In Video-Benchmark-Tests übertraf NVILA GPT4o Mini und zeigte auch im Vergleich zu GPT4o, Sonnet3.5 und Gemini1.5Pro eine hervorragende Leistung. Darüber hinaus erzielte NVILA einen knappen Sieg im Vergleich zu Llama3.2. Dennoch gab NVIDIA an, das Modell derzeit noch nicht auf der Hugging Face Plattform veröffentlicht zu haben. Sie versprachen jedoch, Code und Modell bald zu veröffentlichen, um die Reproduzierbarkeit des Modells zu fördern.
NVIDIA weist darauf hin, dass die Kosten für das Training von visuell-sprachlichen Modellen sehr hoch sind. Das Training eines 7B-Parameter-Modells benötigt etwa 400 GPU-Tage. Auch das Feintuning solcher Modelle ist sehr speicherintensiv; ein 7B-Parameter-Modell benötigt über 64 GB GPU-Speicher.
Daher verwendet NVIDIA eine Technik namens „Erst skalieren, dann komprimieren“, um die Genauigkeit und Effizienz des Modells auszubalancieren. Das Modell reduziert die Eingabe nicht durch Verkleinerung von Fotos und Videos, sondern verwendet stattdessen hochauflösende Bilder und mehrere Frames aus Videos, um sicherzustellen, dass keine Details verloren gehen.
Während des Komprimierungsprozesses reduziert das Modell die Größe der Eingabedaten, indem es visuelle Informationen in weniger Token komprimiert und Pixel gruppiert, um wichtige Informationen zu erhalten. NVIDIA erwähnt in der Veröffentlichung, dass die Verdoppelung der Auflösung die Anzahl der visuellen Token verdoppelt, was die Trainings- und Inferenzkosten um mehr als das Doppelte erhöhen würde. Daher reduzieren sie diese Kosten durch die Komprimierung von Raum-/Zeit-Token.
NVIDIA zeigte auch einige Demo-Ergebnisse des Modells. NVILA kann anhand eines Bildes oder Videos mehrere Fragen beantworten. Die Ergebnisse wurden auch mit dem zuvor von NVIDIA veröffentlichten VILA1.5-Modell verglichen. Darüber hinaus beschrieb NVIDIA detailliert einige weitere Techniken, wie z. B. dynamische S2-Skalierung, datensatzbasiertes DeltaLoss-Pruning und Quantisierung mit FP8-Genauigkeit.
Diese Techniken wurden auf ein 8B-Parameter-Modell angewendet. Weitere Details finden Sie auf Arxiv.
Veröffentlichung: https://arxiv.org/pdf/2412.04468
Wichtigste Punkte:
🌟 Das NVILA-Modell reduziert die Trainingskosten um das 4,5-fache und verbessert die Effizienz der visuellen KI.
📉 Durch hochauflösende Bilder und Videoframes stellt NVILA die Vollständigkeit der Eingabedaten sicher.
📊 NVIDIA verspricht, Code und Modell bald zu veröffentlichen, um die Reproduzierbarkeit der Forschung zu fördern.