Die nahtlose Integration von visuellen und sprachlichen Informationen ist in letzter Zeit ein wichtiger Schwerpunkt im Bereich der Künstlichen Intelligenz (KI), insbesondere mit dem Aufkommen großer Sprachmodelle (LLMs). Es wurden erhebliche Fortschritte erzielt, doch die Entwicklung von visuellen und visuell-sprachlichen Basismodellen für multimodale AGI-Systeme hinkt noch hinterher.
Um diese Lücke zu schließen, haben Forscher der Nanjing Universität, OpenGVLab, des Shanghai AI Lab, der Universität Hongkong, der Chinesischen Universität Hongkong, der Tsinghua Universität, der Universität für Wissenschaft und Technologie China und SenseTime Research ein innovatives Modell namens InternVL vorgestellt. Dieses Modell erweitert die Skalierung visueller Basismodelle und passt sie an allgemeine visuell-linguistische Aufgaben an.
InternVL demonstriert seine herausragenden Fähigkeiten in verschiedenen Aufgaben wie Bild- und Videoklassifizierung, Bild- und Video-Text-Retrieval, Bildbeschriftung, visuelle Fragebeantwortung und multimodalem Dialog, indem es in 32 gängigen visuell-linguistischen Benchmarks bestehende Methoden übertrifft.