Das Groundlight-Forschungsteam, das sich stets darauf konzentriert, KI das Verständnis der Welt zu ermöglichen, hat kürzlich einen großen Schritt nach vorne gemacht und ein komplett neues KI-Framework als Open Source veröffentlicht! Dieses Framework zielt darauf ab, ein großes Problem im Bereich des visuellen Verständnisses zu lösen – komplexes visuelles Schlussfolgern. Die KI soll nicht nur „Bilder erkennen“, sondern wie Sherlock Holmes aus Bildern tiefere Informationen ableiten können.
Wir wissen, dass heutige KIs bereits hervorragend darin sind, Katzen und Hunde zu erkennen. Aber wenn es darum geht, die Logik hinter Bildern zu verstehen und komplexere Schlussfolgerungen zu ziehen, stoßen sie oft an ihre Grenzen. Die Forscher von Groundlight weisen darauf hin, dass aktuelle visuelle Sprachmodelle (VLM) die Bilder selbst nur unzureichend verstehen und daher noch schwieriger Aufgaben bewältigen können, die ein tiefes Verständnis erfordern.
Große Sprachmodelle (LLM) haben zwar enorme Fortschritte im Bereich des Text-Schlussfolgerns gemacht, aber ähnliche Durchbrüche im visuellen Bereich sind noch begrenzt. Bestehende VLMs schneiden oft schlecht ab, wenn sie visuelle und textuelle Hinweise kombinieren müssen, um logische Schlussfolgerungen zu ziehen. Dies zeigt eine entscheidende Schwäche ihrer Fähigkeiten. Die bloße Erkennung von Objekten in Bildern reicht bei weitem nicht aus; das Verständnis der Beziehungen zwischen Objekten und des Kontextes ist entscheidend.
Verstärkendes Lernen als Unterstützung, GRPO schafft ein „Superhirn“
Um die Fähigkeiten von VLMs im visuellen Schlussfolgern zu verbessern, hat das Groundlight-Team die Methode des verstärkenden Lernens eingesetzt und innovativ GRPO (Gradient Ratio Policy Optimization) verwendet, um die Lerneffizienz zu steigern.
Frühere Arbeiten, wie z.B. die von Deepseek und die fortschrittlichen Schlussfolgerungen von Sprachmodellen, haben diese Techniken nur selten auf VLMs angewendet. Um ihre Methode zu validieren, entwickelten die Forscher eine Aufgabe zur Entschlüsselung von Codes, die sowohl visuelle als auch textuelle Informationen erfordert. Das Modell musste mit einem zufällig generierten Decoder-Bild kodierte Informationen entschlüsseln. Ein Modell mit nur 3 Milliarden Parametern erreichte dabei eine Genauigkeit von 96%! Die Analyse der Aufmerksamkeit zeigt, dass das Modell beim Lösen der Aufgabe aktiv visuelle Eingaben nutzt und sich auf relevante Bereiche des Decoders konzentriert.
Das Training von VLMs mit GRPO verlief nicht immer reibungslos, insbesondere bei der Tokenisierung und dem Belohnungsdesign. Da Modelle Text normalerweise als Token und nicht als einzelne Zeichen verarbeiten, können Schwierigkeiten bei Aufgaben auftreten, die eine präzise Schlussfolgerung auf Zeichenebene erfordern.
Um dieses Problem zu lösen, fügten die Forscher Leerzeichen zwischen die Buchstaben der Nachrichten hinzu, um den Dekodierungsprozess zu vereinfachen. Das Belohnungsdesign ist ein weiterer entscheidender Aspekt, da Modelle des verstärkenden Lernens gut strukturiertes Feedback benötigen, um effektiv zu lernen. Die Forscher verwendeten drei Belohnungstypen: Formatbelohnung, um die Konsistenz der Ausgabe sicherzustellen; Dekodierungsbelohnung, um eine sinnvolle Transformation von unleserlichem Text zu fördern; und Korrektheitsbelohnung, um die Genauigkeit zu erhöhen. Durch das sorgfältige Abwägen dieser Belohnungen gelang es den Forschern, zu verhindern, dass das Modell unerwartete „Abkürzungen“ lernt und sicherzustelllen, dass es seine Fähigkeiten zur Code-Entschlüsselung tatsächlich verbessert.
GRPO optimiert den Lernprozess durch den Vergleich mehrerer Ausgaben anstatt durch die direkte Berechnung von Gradienten, was zu einer höheren Stabilität des Trainings führt. Durch die Generierung mehrerer Antworten für jede Anfrage und deren gegenseitige Bewertung erreicht diese Methode eine gleichmäßigere Lernkurve. Diese Studie hebt auch das Potenzial von VLMs bei auflussfolgernden Aufgaben hervor, räumt aber auch die hohen Rechenkosten komplexer visueller Modelle ein.
Um die Effizienz zu verbessern, schlagen sie Techniken wie selektive Modell-Upgrades vor, d.h. die Verwendung teurerer Modelle nur bei Unsicherheiten. Zusätzlich empfehlen sie die Integration vorab trainierter Objekt-Erkennungs-, Segmentierungs- und Tiefen-Schätzungsmodelle, um die Schlussfolgerungsfähigkeiten zu verbessern, ohne die Rechenkosten signifikant zu erhöhen. Dieser werkzeugbasierte Ansatz bietet eine skalierbare Alternative zum Training großer End-to-End-Modelle und betont die Balance zwischen Effizienz und Genauigkeit.
Das Groundlight-Team hat durch die Integration von Techniken des verstärkenden Lernens, insbesondere GRPO, bemerkenswerte Fortschritte bei der Verbesserung von VLMs erzielt. Sie testeten ihre Methode an einer Code-Entschlüsselungsaufgaben, wobei das Modell eine beeindruckende Genauigkeit zeigte.
Projekt: https://github.com/groundlight/r1_vlm
Demo: https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder