InternVL2_5-1B-MPO
Multimodales großes Sprachmodell zur Verbesserung des umfassenden Verständnisses von visuellen und sprachlichen Informationen.
Normales ProduktProduktivitätMultimodalGroßes Sprachmodell
InternVL2_5-1B-MPO ist ein multimodales großes Sprachmodell (MLLM), das auf InternVL2.5 und der Mixed Preference Optimization (MPO) basiert und eine überragende Gesamtperformance zeigt. Das Modell integriert das inkrementell vorgetrainierte InternViT mit verschiedenen vorgetrainierten großen Sprachmodellen (LLMs), darunter InternLM 2.5 und Qwen 2.5, unter Verwendung eines zufällig initialisierten MLP-Projektors. InternVL2_5-MPO behält in der Modellarchitektur das gleiche "ViT-MLP-LLM"-Paradigma wie InternVL 2.5 und seine Vorgänger bei und führt die Unterstützung für Multi-Bild- und Videodaten ein. Das Modell liefert hervorragende Ergebnisse bei multimodalen Aufgaben und kann verschiedene visuelle Sprach-Aufgaben wie Bildbeschreibung und visuelle Fragebeantwortung verarbeiten.
InternVL2_5-1B-MPO Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44