Im Bereich der Informatik stellt die Umwandlung komplex strukturierter Dokumente in geordnete Daten ein seit langem bestehendes Problem dar. Frühere „Notlösungen“ basierten entweder auf komplexen Verfahren mit verschiedenen Modellen oder auf riesigen multimodalen Modellen, die zwar beeindruckend wirken, aber oft Halluzinationen produzieren und sehr teuer sind.

QQ_1742377209054.png

Doch kürzlich präsentierten IBM und Hugging Face SmolDocling, ein Open-Source Visual-Language-Modell (VLM) mit nur 256 MB Parametern, das sich zum Ziel gesetzt hat, die multimodale Dokumentenkonvertierung End-to-End zu lösen.

SmolDoclings Geheimrezept

SmolDocling besticht durch seine „Kompaktheit“ und seine „Fähigkeiten“. Im Gegensatz zu „großen Modellen“ mit oft Milliarden von Parametern, ist SmolDocling mit nur 256 Megabyte ein wahrer „Leichtgewicht“ im Modellbereich und reduziert die Rechenkomplexität und den Ressourcenbedarf erheblich. Besonders beeindruckend ist, dass es ganze Seiten mit einem einzigen Modell verarbeiten kann, wodurch der komplexe Verarbeitungsprozess herkömmlicher Methoden vereinfacht wird.

Klein bedeutet aber nicht schwach. SmolDocling verfügt über eine „Geheimwaffe“ – DocTags, ein universelles Markierungsformat, das die Elemente einer Seite, ihre Struktur und ihren räumlichen Kontext präzise, kompakt und übersichtlich erfasst. Stellen Sie sich vor, jedes Element im Dokument erhält ein eindeutiges „Label“, damit die Maschine die Logik des Dokuments verstehen kann.

SmolDocling basiert auf Hugging Faces SmolVLM-256M und erreicht durch optimierte Tokenisierung und aggressive Komprimierung visueller Merkmale eine deutliche Reduzierung der Rechenkomplexität. Sein Kernvorteil liegt im innovativen DocTags-Format, das Dokumentlayout, Textinhalt und visuelle Informationen wie Tabellen, Formeln, Code-Schnipsel und Diagramme klar voneinander trennt. Für ein effizienteres Training verwendet SmolDocling Curriculum Learning: Zuerst wird der visuelle Encoder „gefroren“, dann wird schrittweise mit umfangreicheren Datensätzen feinabgestimmt, um die visuelle semantische Ausrichtung verschiedener Dokumentelemente zu verbessern. Besonders erfreulich ist die Geschwindigkeit: SmolDocling verarbeitet eine ganze Dokumentseite auf einer Consumer-GPU im Durchschnitt in nur 0,35 Sekunden und benötigt dabei weniger als 500 MB Grafikspeicher.

QQ_1742377221035.png

„Klein, aber oho“: Der „David“ unter den Modellen

SmolDocling beweist seine Leistungsfähigkeit in Leistungstests. In umfassenden Benchmark-Tests zu verschiedenen Dokumentenkonvertierungsaufgaben übertrifft SmolDocling deutlich viele größere Konkurrenzmodelle. Beispielsweise erzielt SmolDocling bei der OCR-Aufgabe für ganze Seiten im Vergleich zu Qwen2.5VL (7 Milliarden Parameter) und Nougat (350 Millionen Parameter) eine deutlich höhere Genauigkeit mit einer geringeren Levenshtein-Distanz (0,48) und einem höheren F1-Score (0,80).

Bei der Formeltranskription erreicht SmolDocling einen F1-Score von 0,95 und liegt damit auf Augenhöhe mit den besten Modellen wie GOT. Besonders hervorzuheben ist die Leistung bei der Code-Schnipsel-Erkennung, wo SmolDocling mit einer Genauigkeit und einem Recall von jeweils 0,94 und 0,91 neue Maßstäbe setzt. Ein wahrer „David“ also, der in allen wichtigen Bereichen seine Stärke beweist!

Vielseitig einsetzbar: Auch komplexe Dokumente sind kein Problem

Im Gegensatz zu anderen Dokumenten-OCR-Lösungen kann SmolDocling verschiedene komplexe Elemente in Dokumenten verarbeiten, darunter Code, Diagramme, Formeln und verschiedene Layouts. Seine Fähigkeiten beschränken sich nicht nur auf wissenschaftliche Arbeiten, sondern es kann auch Patente, Tabellen und Geschäftsdokumente zuverlässig verarbeiten.

Durch die Bereitstellung umfassender strukturierter Metadaten mittels DocTags werden die in Formaten wie HTML oder Markdown vorhandenen Mehrdeutigkeiten beseitigt, was die Nachnutzbarkeit der Dokumentenkonvertierung verbessert. Sein kompaktes Format ermöglicht zudem eine kostengünstige Massenverarbeitung mit geringem Ressourcenbedarf und bietet eine wirtschaftliche Lösung für den groß angelegten Einsatz. Unternehmen müssen sich also bei der Verarbeitung großer Mengen komplexer Dokumente keine Sorgen mehr um hohe Rechenkosten und komplexe Prozesse machen.

Zusammenfassend lässt sich sagen, dass SmolDocling einen bedeutenden Durchbruch in der Dokumentenkonvertierungstechnologie darstellt. Es beweist eindrucksvoll, dass kompakte Modelle nicht nur mit großen Basismodellen konkurrieren, sondern sie in wichtigen Aufgaben sogar deutlich übertreffen können.

Die Forscher haben gezeigt, dass durch gezieltes Training, innovative Datenaugmentation und neuartige Markierungsformate wie DocTags die traditionell mit der Modellgröße und -komplexität verbundenen Einschränkungen überwunden werden können. Die Open-Source-Veröffentlichung von SmolDocling setzt nicht nur neue Maßstäbe für Effizienz und Vielseitigkeit in der OCR-Technologie, sondern stellt der Community auch eine wertvolle Ressource in Form offener Datensätze und einer effizienten, kompakten Modellarchitektur zur Verfügung.