DeepGlint hat das RWKV-CLIP-Modell als Open Source veröffentlicht. Dies ist ein visuell-sprachlicher Repräsentationslerner, der die Vorteile von Transformer- und RNN-Architekturen kombiniert. Das Modell wurde durch eine Bild-Text-Vorabtrainingsaufgabe mit einem erweiterten Datensatz aus Website-Bild-Text-Paaren trainiert und verbessert dadurch die Leistung bei visuellen und sprachlichen Aufgaben deutlich.
Um Probleme mit verrauschten Daten zu lösen und die Datenqualität zu verbessern, hat das Forschungsteam einen diversifizierten beschreibenden Generierungsrahmen eingeführt. Dieser nutzt große Sprachmodelle (LLMs), um Inhalte aus webbasierten Texten, synthetischen Untertiteln und Detektor-Labels zu synthetisieren und zu verfeinern.
Das RWKV-CLIP-Modell verwendet eine Zwei-Turm-Architektur und kombiniert das effiziente parallele Training von Transformer mit dem effizienten Inferenz von RNN. Das Modell besteht aus mehreren gestapelten räumlichen und kanalweisen Mischungsmodulen, die eine tiefgreifende Verarbeitung der eingegebenen Bilder und Texte ermöglichen. In der räumlichen Mischphase nutzt das Modell einen Aufmerksamkeitsmechanismus für globale Berechnungen mit linearer Komplexität und verstärkt die Interaktion von Merkmalen auf Kanalebene. Die kanalweise Mischphase verfeinert die Merkmalsdarstellung weiter. RWKV-CLIP verbessert die Robustheit des Modells durch die zufällige Auswahl von Originaltext, synthetischen Untertiteln oder generierten Beschreibungen als Texteingabe.
Die Ergebnisse zeigen, dass RWKV-CLIP in mehreren Downstream-Aufgaben, einschließlich linearer Sondierung, Zero-Shot-Klassifizierung und Zero-Shot-Bild-Text-Retrieval, state-of-the-art Leistungen erzielt. Im Vergleich zu Baseline-Modellen zeigt RWKV-CLIP eine deutliche Leistungssteigerung.
Die crossmodale Analyse von RWKV-CLIP zeigt, dass die erlernten Repräsentationen innerhalb derselben Modalität eine klarere Unterscheidbarkeit aufweisen und im Bild-Text-Modalitätsraum einen geringeren Abstand zeigen, was auf eine verbesserte crossmodale Ausrichtung hindeutet.
Modell-Adresse: https://wisemodel.cn/models/deepglint/RWKV-CLIP