El Instituto de Investigación de Inteligencia Artificial de Beijing (BAAI) anunció recientemente el lanzamiento de See3D, un innovador modelo de generación 3D que aprende utilizando videos de internet a gran escala sin etiquetas. Este avance tecnológico representa un paso importante hacia el concepto de "Ver video, obtener 3D". See3D no depende de los parámetros tradicionales de la cámara, sino que emplea una técnica de condicionamiento visual, generando imágenes multiperspectivas con control de dirección de la cámara y coherencia geométrica únicamente a partir de las pistas visuales del video. Este método evita la necesidad de costosas anotaciones 3D o de cámara, permitiendo un aprendizaje eficiente de los conocimientos previos 3D a partir de videos de internet.
See3D admite la generación de 3D a partir de texto, vistas individuales y vistas dispersas, y permite la edición 3D y el renderizado gaussiano. El modelo, el código y la demostración ya están disponibles de código abierto para consultar más detalles técnicos. La demostración de See3D incluye el desbloqueo de mundos interactivos 3D, la reconstrucción 3D basada en imágenes dispersas, la generación 3D de mundos abiertos y la generación 3D basada en una sola vista. Estas funciones hacen que See3D sea ampliamente aplicable en diversas aplicaciones de creación 3D.
La motivación de la investigación surge de las limitaciones de los datos 3D. El proceso tradicional de adquisición de datos 3D es lento y costoso, mientras que los videos, debido a su información de movimiento de cámara y correlación multiperspectiva, se convierten en una herramienta poderosa para revelar estructuras 3D. La solución propuesta por See3D incluye la construcción de conjuntos de datos, el entrenamiento del modelo y el marco de generación 3D. El equipo filtró automáticamente los datos de video, creando el conjunto de datos WebVi3D, que abarca 16 millones de fragmentos de video y 320 millones de fotogramas de imagen. El modelo See3D genera señales visuales 2D puras agregando ruido dependiente del tiempo a los datos de video enmascarados, lo que admite el entrenamiento de modelos de difusión multivista escalables y permite la generación 3D sin necesidad de condiciones de cámara.
Las ventajas de See3D radican en la escalabilidad de los datos, el control de la cámara y la coherencia geométrica. Sus datos de entrenamiento provienen de una gran cantidad de videos de internet, y el conjunto de datos multivista creado ha aumentado en órdenes de magnitud. El modelo admite la generación de escenas bajo trayectorias de cámara arbitrariamente complejas, manteniendo la coherencia geométrica entre las vistas de fotogramas consecutivos.
Al ampliar la escala del conjunto de datos, See3D ofrece nuevas ideas para el desarrollo de la tecnología de generación 3D. Se espera que este trabajo fomente la atención de la comunidad de investigación 3D en los datos a gran escala sin anotaciones de cámara, reduzca el costo de adquisición de datos 3D y reduzca la brecha con las soluciones 3D propietarias existentes.
Dirección del proyecto: https://vision.baai.ac.cn/see3d