Generative KI entwickelt sich rasant, doch die umfassende Bewertung ihrer Leistung stellt nach wie vor eine Herausforderung dar. Es entstehen ständig neue Modelle, deren Ergebnisse immer beeindruckender werden. Doch wie bewertet man die Qualität dieser Text-zu-Bild-Modelle?
Traditionelle Bewertungsmethoden beruhen entweder auf der subjektiven menschlichen Wahrnehmung oder auf einfachen Metriken wie dem CLIPScore. Diese Metriken erfassen jedoch oft nicht die Details komplexer Textaufforderungen, wie z. B. Beziehungen zwischen Objekten oder logische Schlussfolgerungen. Dies führt zu ungenauen Bewertungsergebnissen von Text-zu-Bild-Modellen und mitunter zu komischen Situationen, in denen Bilder, die überhaupt nicht zum Text passen, dennoch hohe Punktzahlen erhalten.
Um dieses Problem zu lösen, haben Forscher der Carnegie Mellon University und Meta kürzlich eine neue Bewertungsstrategie für Text-zu-Bild-Modelle entwickelt – VQAScore. Die Kernidee besteht darin, visuelle Frage-Antwort-Modelle (VQA) zur Bewertung von Text-zu-Bild-Modellen einzusetzen.
Konkret wandelt VQAScore die Textaufforderung in eine einfache Frage um, z. B. „Ist eine Katze zu sehen, die eine Maus jagt?“. Dann werden das generierte Bild und die Frage an ein VQA-Modell weitergegeben. Das VQA-Modell beurteilt anhand des Bildinhalts, ob die Antwort „Ja“ oder „Nein“ lautet. VQAScore bewertet das Text-zu-Bild-Modell anhand der Wahrscheinlichkeit, mit der das VQA-Modell „Ja“ antwortet.
Diese Methode erscheint einfach, liefert aber überraschend gute Ergebnisse. Die Forscher testeten VQAScore auf acht verschiedenen Bewertungsmaßstäben für Text-zu-Bild-Modelle und stellten fest, dass VQAScore sowohl in Bezug auf Genauigkeit als auch Zuverlässigkeit herkömmliche Bewertungsmethoden deutlich übertrifft und sogar mit Ansätzen mithalten kann, die auf sehr großen Modellen wie GPT-4V basieren.
Noch beeindruckender ist, dass VQAScore nicht nur zur Bewertung von Text-zu-Bild-Modellen, sondern auch von Text-zu-Video- und Text-zu-3D-Modellen eingesetzt werden kann. Dies liegt daran, dass VQAScore auf VQA-Modellen basiert, die verschiedene Arten von visuellen Inhalten verarbeiten können.
Um den Fortschritt im Bereich der Text-zu-Bild-Generierung weiter voranzutreiben, haben die Forscher einen neuen Bewertungsmaßstab für Text-zu-Bild-Modelle – GenAI-Bench – erstellt. Dieser Maßstab enthält 1600 komplexe Textaufforderungen, die verschiedene Fähigkeiten des visuellen Sprachverständnisses abdecken, wie z. B. Vergleiche, Zählungen und logische Schlussfolgerungen. Die Forscher haben außerdem über 15.000 manuell annotierte Daten gesammelt, um die Leistung verschiedener Text-zu-Bild-Modelle zu bewerten.
Zusammenfassend lässt sich sagen, dass VQAScore und GenAI-Bench dem Bereich der Text-zu-Bild-Generierung neuen Schwung verleihen. VQAScore bietet eine genauere und zuverlässigere Bewertungsmethode, die Forschern hilft, die Vor- und Nachteile verschiedener Modelle besser zu beurteilen. GenAI-Bench hingegen bietet einen umfassenderen und anspruchsvolleren Bewertungsmaßstab, der die Entwicklung von Text-zu-Bild-Modellen in Richtung intelligenterer und benutzerfreundlicherer Systeme vorantreibt.
Natürlich hat VQAScore auch einige Einschränkungen. Derzeit basiert VQAScore hauptsächlich auf Open-Source-VQA-Modellen, deren Leistung nicht an die geschlossener Systeme wie GPT-4V heranreicht. Mit der Weiterentwicklung von VQA-Modellen wird sich auch die Leistung von VQAScore verbessern.
Projekt-Adresse: https://linzhiqiu.github.io/papers/vqascore/