MetaCLIP ist ein Open-Source-Machine-Learning-Modell für die gemeinsame Repräsentationslernen von Bildern und Texten. Es filtert CLIP-Daten mittels eines einfachen Algorithmus, ohne auf vorherige Modelle angewiesen zu sein, wodurch die Datenqualität und -transparenz verbessert werden. Zu den Hauptbeiträgen von MetaCLIP gehören die filterfreie Datenfilterung, die transparente Verteilung der Trainingsdaten, ein skalierbarer Algorithmus und standardisierte CLIP-Trainingseinstellungen. Das Modell betont die Bedeutung der Datenqualität und bietet vortrainierte Modelle, um Forscher und Entwickler bei kontrollierten Experimenten und fairen Vergleichen zu unterstützen.