Forscher der Universität Nanjing und des Megvii Research Institutes haben gemeinsam eine Revolution für visuelle Großmodelle eingeläutet. Ihr unüberwachtes Paradigma – SeVa – löst erfolgreich das Problem der Präferenzabstimmung bei visuellen Sprachmodellen, und das ganz ohne menschliches Eingreifen oder die Hilfe von GPT-4. Die Abstimmungskosten werden dadurch drastisch reduziert.

Der Kern dieser Technologie liegt in einer automatisierten Pipeline zur Erstellung von Präferenzdaten. Ein Vergleich der Modell-Outputs vor und nach der Präferenzabstimmung zeigt deutlich die Veränderungen. Die Forscher stellten fest, dass selbst minimale Bildvergrößerungen dazu führen können, dass ein VLM (Visuelles Sprachmodell) auf dieselbe Frage unterschiedlich antwortet. Daher verwenden sie die Antwort auf das Originalbild als positives Beispiel und die Antwort auf das vergrößerte Bild als negatives Beispiel für das Training.

image.png

Die Ergebnisse von SeVa sind bemerkenswert. Mit nur 8.000 unüberwachten Datenpunkten wurde die Befolgung von Anweisungen durch das VLM deutlich verbessert, Halluzinationen reduziert und signifikante Verbesserungen in verschiedenen multimodalen Benchmarks erzielt. Noch wichtiger ist, dass diese Methode einfach, kostengünstig und ohne menschliche oder GPT-4-Annotationen auskommt.

Tests in mehreren Benchmarks zeigen, dass SeVa einen deutlichen Vorteil bei der Verbesserung der Übereinstimmung visueller Modelle mit menschlichen Präferenzen bietet. Besonders hervorzuheben ist die Leistung von SeVa bei der von GPT-4 bewerteten MmVet und LLaVA-bench. Darüber hinaus erzeugt SeVa längere, detailliertere Antworten mit höherer Konsistenz und zeigt eine höhere Robustheit gegenüber Störungen durch unterschiedliche Temperaturen.

Diese Forschung bietet nicht nur eine effektive Lösung für das Problem der Abstimmung visueller Großmodelle, sondern eröffnet auch neue Möglichkeiten für die Entwicklung im Bereich der KI. Durch die Open-Source-Veröffentlichung von SeVa ist zu erwarten, dass zukünftig mehr Forscher und Entwickler dieses Paradigma nutzen werden, um die Weiterentwicklung der KI-Technologie voranzutreiben. In dieser Zeit voller Möglichkeiten erwarten wir gespannt weitere Überraschungen aus der KI-Forschung.

Projekt-Adresse: https://github.com/Kevinz-code/SeVa