O VGGSfM é uma técnica de reconstrução 3D baseada em aprendizado profundo, projetada para reconstruir a pose da câmera e a estrutura 3D de uma cena a partir de um conjunto não restrito de imagens 2D. A técnica utiliza um framework de aprendizado profundo totalmente diferenciável para treinamento de ponta a ponta. Ela extrai trajetórias de pixels confiáveis usando uma técnica de rastreamento de pontos 2D profundos, recupera todas as câmeras com base em características de imagem e trajetória, e otimiza as câmeras e os pontos 3D triangularizados por meio de uma camada de ajuste de feixe diferenciável. O VGGSfM alcançou desempenho de ponta em três conjuntos de dados populares: CO3D, IMC Phototourism e ETH3D.