Eine Überprüfung der visuellen Wahrnehmung
Erlernen von String-Beziehungen zwischen Modellen und Überprüfung der visuellen Welt
Normales ProduktBildSprachmodelleVisuelle Wahrnehmung
Diese Arbeit evaluiert systematisch die Fähigkeit großer Sprachmodelle (LLMs) zur Generierung und Erkennung zunehmend komplexer visueller Konzepte und zeigt, wie man mit Textmodellen ein rudimentäres System des visuellen Repräsentationslernens trainieren kann. Obwohl Sprachmodelle keine pixelbasierten visuellen Informationen direkt verarbeiten können, wird die Forschung unter Verwendung von Code zur Darstellung von Bildern durchgeführt. Die von LLMs generierten Bilder ähneln zwar nicht natürlichen Bildern, doch die Ergebnisse in der Bilderzeugung und -korrektur zeigen, dass eine präzise Modellierung von Strings den Sprachmodellen viele Aspekte der visuellen Welt vermitteln kann. Darüber hinaus unterstreichen Experimente zum selbstüberwachten visuellen Repräsentationslernen mit von Textmodellen generierten Bildern das Potenzial, rein mit LLMs visuelle Modelle zu trainieren, die in der Lage sind, eine semantische Bewertung von natürlichen Bildern durchzuführen.
Eine Überprüfung der visuellen Wahrnehmung Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44