O MetaCLIP é um modelo de aprendizado de máquina de código aberto para aprendizado de representações conjuntas de imagem e texto. Ele filtra os dados do CLIP por meio de um algoritmo simples, sem depender de filtros de modelos anteriores, melhorando assim a qualidade e a transparência dos dados. As principais contribuições do MetaCLIP incluem a filtragem de dados sem filtros prévios, a distribuição transparente dos dados de treinamento, um algoritmo escalável e uma configuração de treinamento CLIP padronizada. O modelo destaca a importância da qualidade dos dados e fornece modelos pré-treinados para apoiar pesquisadores e desenvolvedores em experimentos controlados e comparações justas.