InternViT-300M-448px-V2_5
Verbesserte Version von InternViT-300M-448px mit verbesserter visueller Merkmalsextraktion.
Normales ProduktBildVisuelle MerkmalsextraktionMultimodales Lernen
InternViT-300M-448px-V2_5 ist eine verbesserte Version von InternViT-300M-448px. Durch die Anwendung von inkrementellem ViT-Lernen und NTP-Verlust (Stufe 1.5) wurde die Fähigkeit des visuellen Encoders zur Extraktion visueller Merkmale verbessert, insbesondere in Bereichen, die in großen Netzwerkdatensätzen unterrepräsentiert sind, wie z. B. mehrsprachige OCR-Daten und mathematische Diagramme. Dieses Modell ist Teil der InternViT 2.5-Serie und behält die gleiche "ViT-MLP-LLM"-Modellarchitektur wie seine Vorgänger bei. Es integriert neu inkrementell vortrainierte InternViT-Modelle mit verschiedenen vortrainierten LLMs, wie InternLM 2.5 und Qwen 2.5, unter Verwendung von zufällig initialisierten MLP-Projektoren.
InternViT-300M-448px-V2_5 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44