Google hat kürzlich ein neues visuell-sprachliches Modell (Vision-Language Model, VLM) namens PaliGemma2Mix vorgestellt. Dieses Modell kombiniert Bildverarbeitungs- und natürlichsprachliche Verarbeitungsfähigkeiten und kann sowohl visuelle Informationen als auch Texteingaben verstehen und je nach Bedarf entsprechende Ausgaben generieren. Dies stellt einen weiteren Durchbruch in der Multitasking-Fähigkeit von KI-Technologien dar.

PaliGemma2Mix bietet umfassende Funktionen, darunter Bildbeschreibung, optische Zeichenerkennung (OCR), Bildbeantwortung, Objekterkennung und Bildsegmentierung. Es eignet sich für diverse Anwendungsszenarien. Entwickler können das Modell direkt über vorab trainierte Checkpoints nutzen oder es nach Bedarf weiter feinabstimmen.

image.png

Das Modell basiert auf dem Vorgänger PaliGemma2 und wurde speziell für gemischte Aufgaben optimiert, um Entwicklern die Erkundung seiner Leistungsfähigkeit zu erleichtern. PaliGemma2Mix ist in drei Größen verfügbar: 3B (3 Milliarden Parameter), 10B (10 Milliarden Parameter) und 28B (28 Milliarden Parameter). Es unterstützt Auflösungen von 224px und 448px und passt sich so an verschiedene Rechenressourcen und Aufgabenanforderungen an.

Die wichtigsten Funktionen von PaliGemma2Mix sind:

1. Bildbeschreibung: Das Modell kann kurze und lange Bildbeschreibungen generieren, z. B. die Erkennung und detaillierte Beschreibung eines Bildes mit einer Kuh am Strand.

2. Optische Zeichenerkennung (OCR): Das Modell kann Text aus Bildern extrahieren und Schilder, Etiketten und Dokumenteninhalte erkennen, was die Informationsgewinnung vereinfacht.

3. Bildbeantwortung und Objekterkennung: Benutzer können Bilder hochladen und Fragen stellen. Das Modell analysiert das Bild und liefert Antworten. Darüber hinaus kann es spezifische Objekte auf Bildern wie Tiere oder Fahrzeuge präzise erkennen.

Erwähnenswert ist, dass Entwickler die gemischten Gewichte des Modells auf Kaggle und Hugging Face herunterladen können, um weitere Experimente und Entwicklungen durchzuführen. Wer an diesem Modell interessiert ist, kann es über die Demo-Plattform von Hugging Face erkunden und seine Leistungsfähigkeit und Anwendungspotenziale kennenlernen.

Mit der Einführung von PaliGemma2Mix hat Google seine Forschung im Bereich der visuell-sprachlichen Modelle einen Schritt weiter vorangetrieben. Es wird erwartet, dass diese Technologie in der Praxis einen hohen Mehrwert bietet.

Technischer Bericht: https://arxiv.org/abs/2412.03555