Visuelle Sprachmodelle (VLMs) sind Ihnen wahrscheinlich bekannt. Diese kleinen Wunder der KI können nicht nur Text lesen, sondern auch Bilder „sehen“. Doch das ist nicht ganz die Wahrheit. Heute schauen wir uns genauer an, ob sie wirklich wie Menschen Bilder „verstehen“ können.

Zuerst einmal eine kurze Erklärung, was VLMs sind. Vereinfacht gesagt, handelt es sich um große Sprachmodelle wie GPT-4o und Gemini-1.5Pro, die in der Bild- und Textverarbeitung hervorragend abschneiden und in vielen Tests zum visuellen Verständnis hohe Punktzahlen erreichen. Lassen Sie sich von diesen hohen Punktzahlen aber nicht täuschen – wir wollen heute untersuchen, ob sie wirklich so leistungsfähig sind.

Forscher haben einen Test namens BlindTest entwickelt, der sieben Aufgaben enthält, die für Menschen kinderleicht sind. Zum Beispiel: Bestimmen, ob sich zwei Kreise überlappen, ob sich zwei Linien schneiden oder wie viele Kreise im olympischen Logo sind. Klingen diese Aufgaben nicht nach etwas, das selbst Kindergartenkinder lösen könnten? Doch die Leistung der VLMs ist weniger beeindruckend.

Das Ergebnis ist überraschend: Die durchschnittliche Genauigkeit dieser vermeintlich fortschrittlichen Modelle beim BlindTest liegt bei nur 56,20 %, das beste Modell, Sonnet-3.5, erreicht gerade einmal 73,77 %. Das ist so, als würde ein angeblicher Top-Schüler die Grundschulmathe nicht schaffen.

image.png

Warum ist das so? Die Forscher vermuten, dass VLMs bei der Bildverarbeitung wie kurzsichtig sind und Details nicht erkennen können. Sie können zwar den allgemeinen Trend eines Bildes erfassen, aber sobald es um präzise räumliche Informationen geht, z. B. ob sich zwei Formen überlappen oder schneiden, sind sie überfordert.

Beispielsweise sollten die VLMs bestimmen, ob sich zwei Kreise überlappen. Es stellte sich heraus, dass die Modelle selbst bei großen Kreisen nicht zu 100 % korrekt antworten konnten. Auch beim Zählen der Kreise im olympischen Logo war ihre Leistung unbefriedigend.

image.png

Noch interessanter ist, dass die Forscher feststellten, dass diese VLMs beim Zählen eine besondere Vorliebe für die Zahl 5 zu haben scheinen. Wenn die Anzahl der Kreise im olympischen Logo über 5 liegt, antworten sie eher mit „5“. Dies liegt wahrscheinlich daran, dass das olympische Logo fünf Kreise enthält, mit denen sie besonders vertraut sind.

image.png

Haben Sie nach all dem ein neues Verständnis für diese scheinbar hochentwickelten VLMs? Sie haben in der visuellen Wahrnehmung noch viele Einschränkungen und erreichen bei weitem nicht das Niveau des Menschen. Wenn Sie also das nächste Mal hören, dass KI den Menschen vollständig ersetzen kann, können Sie ruhig lächeln.

论文地址: https://arxiv.org/pdf/2407.06581

项目页: https://vlmsareblind.github.io/