Un equipo de investigación de la Universidad Técnica Checa de Praga y el Instituto Federal Suizo de Tecnología de Zurich ha presentado recientemente un método innovador llamado "WildGaussians", que mejora significativamente la capacidad de la técnica de dispersión gaussiana 3D (3DGS) para procesar conjuntos de imágenes no estructuradas. Este avance permite la reconstrucción 3D de alta calidad a partir de conjuntos de imágenes no estructuradas, como fotos de puntos de referencia recopiladas de internet.
WildGaussians aborda principalmente dos desafíos clave: los cambios de apariencia e iluminación, y la oclusión de objetos en movimiento. El equipo de investigación abordó estos desafíos mediante el desarrollo de dos componentes centrales: el modelado de apariencia y el modelado de incertidumbre.
El modelado de apariencia permite al sistema procesar imágenes tomadas en diferentes condiciones (como diferentes horas del día o condiciones climáticas). El método utiliza incrustaciones entrenables para cada imagen de entrenamiento y distribución gaussiana, y ajusta el color de la distribución gaussiana mediante una red neuronal (MLP) para adaptarse a las condiciones de captura correspondientes.
El modelado de incertidumbre ayuda a identificar e ignorar oclusiones, como peatones o automóviles, durante el entrenamiento. Los investigadores utilizaron características preentrenadas de DINOv2 para mejorar la capacidad del sistema de adaptación a los cambios en el paisaje.
En términos de rendimiento, WildGaussians mostró un rendimiento excelente en conjuntos de datos desafiantes como NeRF On-the-go y Photo Tourism, superando en calidad a los métodos más avanzados existentes. Además, el método logró una velocidad de renderizado en tiempo real de 117 imágenes por segundo en una GPU Nvidia RTX4090.
A pesar de los importantes avances de WildGaussians en el campo de la reconstrucción 3D, los investigadores reconocen algunas limitaciones, como la representación de los reflejos especulares en los objetos. Planean mejorar aún más el método en el futuro mediante la integración de técnicas como los modelos de difusión.
Esta investigación abre nuevas posibilidades para lograr una reconstrucción 3D robusta, multifuncional y fotorrealista a partir de datos ruidosos generados por el usuario, con el potencial de tener un profundo impacto en varios campos, como la realidad virtual, la realidad aumentada y la visión por computadora.