NVLM-D-72B ist ein von NVIDIA entwickeltes großes, multimodales Sprachmodell, das sich auf visuelle und sprachliche Aufgaben konzentriert und durch multimodales Training die Textleistung verbessert. Das Modell erzielte in Benchmarks für visuelle und sprachliche Aufgaben Ergebnisse, die mit denen der branchenführenden Modelle vergleichbar sind.