Eine Überprüfung der visuellen Wahrnehmung

Erlernen von String-Beziehungen zwischen Modellen und Überprüfung der visuellen Welt

Normales ProduktBildSprachmodelleVisuelle Wahrnehmung
Diese Arbeit evaluiert systematisch die Fähigkeit großer Sprachmodelle (LLMs) zur Generierung und Erkennung zunehmend komplexer visueller Konzepte und zeigt, wie man mit Textmodellen ein rudimentäres System des visuellen Repräsentationslernens trainieren kann. Obwohl Sprachmodelle keine pixelbasierten visuellen Informationen direkt verarbeiten können, wird die Forschung unter Verwendung von Code zur Darstellung von Bildern durchgeführt. Die von LLMs generierten Bilder ähneln zwar nicht natürlichen Bildern, doch die Ergebnisse in der Bilderzeugung und -korrektur zeigen, dass eine präzise Modellierung von Strings den Sprachmodellen viele Aspekte der visuellen Welt vermitteln kann. Darüber hinaus unterstreichen Experimente zum selbstüberwachten visuellen Repräsentationslernen mit von Textmodellen generierten Bildern das Potenzial, rein mit LLMs visuelle Modelle zu trainieren, die in der Lage sind, eine semantische Bewertung von natürlichen Bildern durchzuführen.
Website öffnen

Eine Überprüfung der visuellen Wahrnehmung Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Eine Überprüfung der visuellen Wahrnehmung Besuchstrend

Eine Überprüfung der visuellen Wahrnehmung Geografische Verteilung der Besuche

Eine Überprüfung der visuellen Wahrnehmung Traffic-Quellen

Eine Überprüfung der visuellen Wahrnehmung Alternativen