SmolVLM-256M-Instruct

SmolVLM-256M ist das weltweit kleinste multimodale Modell und verarbeitet effizient Bild- und Texteingaben zur Erzeugung von Textausgaben.

Normales ProduktBildMultimodalBildverarbeitung
SmolVLM-256M ist ein von Hugging Face entwickeltes multimodales Modell, basierend auf der Idefics3-Architektur und speziell für die effiziente Verarbeitung von Bild- und Texteingaben konzipiert. Es kann Fragen zu Bildern beantworten, visuelle Inhalte beschreiben oder Texte transkribieren und benötigt lediglich weniger als 1 GB GPU-Speicher für die Inferenz. Das Modell zeichnet sich durch hervorragende Leistung bei multimodalen Aufgaben und eine leichte Architektur aus, die sich für die Verwendung auf Endgeräten eignet. Die Trainingsdaten stammen aus den Datensätzen The Cauldron und Docmatix und umfassen Bereiche wie Dokumentenverständnis und Bildbeschreibungen, wodurch ein breites Anwendungspotenzial entsteht. Das Modell wird derzeit kostenlos auf der Hugging Face Plattform bereitgestellt, um Entwicklern und Forschern leistungsstarke multimodale Verarbeitungsfunktionen zur Verfügung zu stellen.
Website öffnen

SmolVLM-256M-Instruct Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

SmolVLM-256M-Instruct Besuchstrend

SmolVLM-256M-Instruct Geografische Verteilung der Besuche

SmolVLM-256M-Instruct Traffic-Quellen

SmolVLM-256M-Instruct Alternativen