O Instituto de Pesquisa de Inteligência Artificial de Pequim (BAAI) anunciou recentemente o lançamento do See3D, um inovador modelo de geração 3D que aprende usando vídeos da internet em larga escala sem anotações. Esta inovação tecnológica representa um passo significativo em direção ao conceito "Veja o Vídeo, Obtenha 3D". O modelo See3D não depende de parâmetros de câmera tradicionais, mas sim de técnicas de condicionamento visual, gerando imagens multi-visuais com direção de câmera controlável e geometria consistente apenas com base em pistas visuais dos vídeos. Este método elimina a necessidade de dispendiosas anotações 3D ou de câmera, permitindo a aprendizagem eficiente de informações 3D a partir de vídeos da internet.
O modelo See3D suporta a geração de 3D a partir de texto, visão única e visões esparsas, além de permitir edição 3D e renderização de Gauss. O modelo, o código e a demonstração (Demo) já foram disponibilizados em código aberto para consulta de detalhes técnicos mais aprofundados. A demonstração do See3D inclui a abertura de mundos interativos 3D, reconstrução 3D baseada em imagens esparsas, geração 3D de mundo aberto e geração 3D baseada em visão única. Esses recursos tornam o See3D amplamente aplicável em diversas aplicações de criação 3D.
A motivação da pesquisa surgiu das limitações dos dados 3D. A coleta tradicional de dados 3D é demorada e cara, enquanto os vídeos, por conterem informações de correlação multi-angular e movimento da câmera, se tornam uma ferramenta poderosa para revelar estruturas 3D. A solução proposta pelo See3D inclui a construção de conjuntos de dados, treinamento de modelos e uma estrutura de geração 3D. A equipe selecionou automaticamente dados de vídeo, criando o conjunto de dados WebVi3D, que contém 16 milhões de clipes de vídeo e 320 milhões de quadros de imagem. O modelo See3D gera sinais visuais 2D puros adicionando ruído dependente do tempo aos dados de vídeo mascarados, suportando o treinamento de modelos de difusão multi-visuais escaláveis e permitindo a geração 3D sem condicionamento da câmera.
As vantagens do See3D residem na escalabilidade dos dados, na controlabilidade da câmera e na consistência geométrica. Seus dados de treinamento são derivados de uma grande quantidade de vídeos da internet, e o conjunto de dados multi-visuais criado apresenta um aumento significativo em escala. O modelo suporta a geração de cenários em trajetórias de câmera arbitrariamente complexas, mantendo a consistência geométrica entre os quadros.
Ao expandir a escala do conjunto de dados, o See3D oferece novas perspectivas para o desenvolvimento da tecnologia de geração 3D. Esperamos que este trabalho incentive a comunidade de pesquisa 3D a se concentrar em dados em larga escala sem anotações de câmera, reduzindo o custo de aquisição de dados 3D e diminuindo a lacuna em relação às soluções 3D proprietárias existentes.
Endereço do projeto: https://vision.baai.ac.cn/see3d