O L4GM é um modelo de reconstrução 4D em larga escala que gera objetos animados rapidamente a partir de entrada de vídeo de visão única. Ele utiliza um novo conjunto de dados contendo vídeos multivisuais que mostram objetos animados renderizados no Objaverse. Este conjunto de dados contém 44 mil objetos diferentes e 110 mil animações, renderizados a partir de 48 ângulos de visão, gerando 12 milhões de vídeos com um total de 300 milhões de frames. O L4GM é baseado no modelo de reconstrução 3D em larga escala pré-treinado LGM, que gera elipsoides gaussianos 3D a partir de entrada de imagens multivisuais. O L4GM gera uma representação de splatting gaussiano 3D para cada frame, que é então sobreamostrada para uma taxa de frames mais alta para suavização temporal. Além disso, o L4GM adiciona uma camada de autoatenção temporal para auxiliar no aprendizado da consistência temporal e utiliza uma perda de renderização multivisual para cada etapa temporal para treinar o modelo.