SmolVLM-256M-Instruct
SmolVLM-256M ist das weltweit kleinste multimodale Modell und verarbeitet effizient Bild- und Texteingaben zur Erzeugung von Textausgaben.
Normales ProduktBildMultimodalBildverarbeitung
SmolVLM-256M ist ein von Hugging Face entwickeltes multimodales Modell, basierend auf der Idefics3-Architektur und speziell für die effiziente Verarbeitung von Bild- und Texteingaben konzipiert. Es kann Fragen zu Bildern beantworten, visuelle Inhalte beschreiben oder Texte transkribieren und benötigt lediglich weniger als 1 GB GPU-Speicher für die Inferenz. Das Modell zeichnet sich durch hervorragende Leistung bei multimodalen Aufgaben und eine leichte Architektur aus, die sich für die Verwendung auf Endgeräten eignet. Die Trainingsdaten stammen aus den Datensätzen The Cauldron und Docmatix und umfassen Bereiche wie Dokumentenverständnis und Bildbeschreibungen, wodurch ein breites Anwendungspotenzial entsteht. Das Modell wird derzeit kostenlos auf der Hugging Face Plattform bereitgestellt, um Entwicklern und Forschern leistungsstarke multimodale Verarbeitungsfunktionen zur Verfügung zu stellen.
SmolVLM-256M-Instruct Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44