O casamento de imagens é uma tarefa fundamental na visão computacional. Recentemente, modelos de casamento baseados em aprendizado profundo tornaram-se populares. Para resolver o problema de generalização dos métodos baseados em aprendizado profundo, pesquisadores da Universidade de Xiamen, Intel e DJI propuseram o GIM: Learning Generalizable Image Matcher from Internet Videos. O GIM permite que os modelos de casamento aprendam uma forte capacidade de generalização a partir de vídeos da internet, sendo aplicável ao treinamento de todos os modelos de casamento. Os autores propuseram o primeiro Zero-shot Evaluation Benchmark (ZEB), e os resultados da avaliação mostram que o GIM pode melhorar significativamente o desempenho de generalização dos modelos de casamento.