Eine kürzlich durchgeführte Studie hat ergeben, dass GPT-4 bei einer visuellen Erkennungsaufgabe schlecht abgeschnitten hat. Der Grund dafür könnte sein, dass die Bilder in dieser Aufgabe im Trainingssatz überrepräsentiert waren. GPT-4 hat die Aufgabe möglicherweise durch Abruf aus dem Gedächtnis gelöst, anstatt durch tatsächliche visuelle Erkennung. Dies zeigt, dass selbst bei herausragender Leistung von großen Modellen in bestimmten Aufgaben Vorsicht geboten ist. Ein Erfolg im Trainingssatz darf nicht zu einer Überschätzung der Generalisierungsfähigkeit des Modells führen. Die Verbesserung der Generalisierungsfähigkeit und der Robustheit gegenüber gegnerischen Beispielen ist einer der aktuellen Schwerpunkte der Forschung. Gleichzeitig muss man sich vor der ausschließlichen Testung des Modells auf dem Trainingssatz hüten. Eine Bewertung der Generalisierungsfähigkeit anhand eines breiteren Spektrums an Beispielen ist notwendig, um die Modellleistung besser einschätzen zu können.
GPT-4: Neue Herausforderungen bei der Bilderkennung
