Mit der fortschreitenden Entwicklung der künstlichen Intelligenz stellt die Fusion von visuellen und Textdaten eine komplexe Herausforderung dar. Traditionelle Modelle haben oft Schwierigkeiten, strukturierte visuelle Dokumente wie Tabellen, Diagramme, Infografiken und Illustrationen präzise zu analysieren. Diese Einschränkung beeinträchtigt die automatische Extraktion und das Verständnis von Inhalten und wirkt sich somit auf Anwendungen wie Datenanalyse, Informationsrecherche und Entscheidungsfindung aus. Um diesem Bedarf gerecht zu werden, hat IBM kürzlich Granite-Vision-3.1-2B veröffentlicht, ein kleines visuelles Sprachmodell, das speziell für das Dokumentenverständnis entwickelt wurde.

image.png

Granite-Vision-3.1-2B kann Inhalte aus verschiedenen visuellen Formaten extrahieren, darunter Tabellen, Diagramme und Illustrationen. Das Modell wurde auf sorgfältig ausgewählten Datensätzen trainiert, die sowohl öffentliche als auch synthetische Quellen umfassen, und kann verschiedene dokumentbezogene Aufgaben bewältigen. Als verbesserte Version des großen Sprachmodells Granite integriert es Bild- und Textmodalitäten, wodurch die Interpretationsfähigkeit des Modells verbessert und es für verschiedene praktische Anwendungsszenarien geeignet wird.

Das Modell besteht aus drei Schlüsselkomponenten: Erstens einem visuellen Encoder, der mit SigLIP visuelle Daten effizient verarbeitet und kodiert; zweitens einem visuellen Sprach-Connector, einem zweischichtigen Multi-Layer-Perceptron (MLP) mit GELU-Aktivierungsfunktion, der die Verbindung zwischen visuellen und Textinformationen herstellt; und drittens einem großen Sprachmodell, basierend auf Granite-3.1-2B-Instruct, mit einer Kontextlänge von 128k, das komplexe und umfangreiche Eingaben verarbeiten kann.

Während des Trainings hat Granite-Vision-3.1-2B von LlaVA profitiert und die Eigenschaften von mehrschichtigen Encodern sowie eine dichtere Gitterauflösung in AnyRes integriert. Diese Verbesserungen verstärken die Fähigkeit des Modells, detaillierte visuelle Inhalte zu verstehen, und ermöglichen eine genauere Ausführung von Aufgaben im Zusammenhang mit visuellen Dokumenten, wie z. B. die Analyse von Tabellen und Diagrammen, die optische Zeichenerkennung (OCR) und die Beantwortung dokumentbasierter Fragen.

Die Bewertungsergebnisse zeigen, dass Granite-Vision-3.1-2B in mehreren Benchmark-Tests hervorragende Leistungen erbringt, insbesondere im Bereich des Dokumentenverständnisses. Im ChartQA-Benchmark erreicht das Modell einen Score von 0,86 und übertrifft damit andere Modelle mit Parametern im Bereich von 1B-4B. Im TextVQA-Benchmark erzielt es einen Score von 0,76 und zeigt seine Stärke bei der Analyse und Beantwortung von in Bildern eingebetteten Textinformationen. Diese Ergebnisse unterstreichen das Potenzial des Modells für die präzise Verarbeitung visueller und Textdaten in Unternehmensumgebungen.

IBMs Granite-Vision-3.1-2B stellt einen wichtigen Fortschritt bei visuellen Sprachmodellen dar und bietet eine ausgewogene Lösung für das Verständnis visueller Dokumente. Seine Architektur und Trainingsmethode ermöglichen die effiziente Analyse und Verarbeitung komplexer visueller und Textdaten. Aufgrund der nativen Unterstützung von Transformatoren und vLLM kann sich das Modell an verschiedene Anwendungsfälle anpassen und in Cloud-Umgebungen wie Colab T4 eingesetzt werden. Es bietet Forschern und Fachleuten ein praktisches Werkzeug zur Verbesserung der KI-gestützten Dokumentenverarbeitung.

Modell:https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview

Highlights:

🌟 Granite-Vision-3.1-2B ist ein von IBM entwickeltes, kleines visuelles Sprachmodell, das speziell für das Dokumentenverständnis entwickelt wurde und die Extraktion von Inhalten aus verschiedenen visuellen Formaten ermöglicht.

📊 Das Modell besteht aus einem visuellen Encoder, einem visuellen Sprach-Connector und einem großen Sprachmodell und verbessert das Verständnis komplexer Eingaben.

🏆 Es zeigt in mehreren Benchmark-Tests hervorragende Leistungen, insbesondere im Bereich des Dokumentenverständnisses, und weist ein starkes Potenzial für Unternehmensanwendungen auf.