SmolVLM-500M-Instruct
SmolVLM-500M ist ein leichtgewichtiges multimodales Modell, das Bild- und Texteingaben verarbeiten und Textausgaben generieren kann.
Normales ProduktBildMultimodalBildbeschreibung
SmolVLM-500M ist ein von Hugging Face entwickeltes leichtgewichtiges multimodales Modell aus der SmolVLM-Reihe. Das Modell basiert auf der Idefics3-Architektur und konzentriert sich auf effiziente Bild- und Textverarbeitungsaufgaben. Es kann Bild- und Texteingaben in beliebiger Reihenfolge akzeptieren und Textausgaben generieren. Es eignet sich für Aufgaben wie Bildbeschreibungen und visuelle Frage-Antwort-Systeme. Seine leichtgewichtige Architektur ermöglicht den Betrieb auf ressourcenbeschränkten Geräten bei gleichzeitig hoher Leistung bei multimodalen Aufgaben. Das Modell verwendet die Apache 2.0-Lizenz und unterstützt Open-Source und flexible Anwendungsszenarien.
SmolVLM-500M-Instruct Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44