Recentemente, pesquisadores da Universidade de Stanford e do MIT desenvolveram em conjunto um sistema de IA chamado WonderWorld, capaz de gerar cenas 3D em tempo real a partir de uma única imagem. Essa nova tecnologia permite que os usuários construam e explorem ambientes virtuais gradualmente, controlando facilmente o conteúdo e o layout da cena gerada.

O maior desafio do WonderWorld foi a implementação da geração rápida de cenas 3D. Métodos anteriores geralmente levavam de alguns minutos a horas para gerar uma cena, enquanto o WonderWorld consegue gerar um novo ambiente 3D em apenas 10 segundos em uma GPU Nvidia A6000. Essa velocidade torna a interação em tempo real possível, marcando um grande avanço na área.

O WonderWorld funciona a partir de uma imagem de entrada, gerando uma cena 3D inicial. Em seguida, o sistema entra em um loop, alternando entre a geração de imagens de cena e a representação correspondente de FLAGS. Os usuários podem controlar a geração de novas cenas movendo a câmera e usar a entrada de texto para especificar o tipo de cena desejado.

image.png

Vale ressaltar que a representação FLAGS é composta por três camadas: primeiro plano, fundo e céu. Cada camada contém um conjunto de elementos chamados "surfels", que são definidos por sua posição 3D, orientação, escala, transparência e cor. Esses surfels são inicializados por meio da estimativa de profundidade e mapas normais, e depois otimizados para criar a cena final.

Para reduzir a distorção geométrica durante a transição de cenas, o WonderWorld utiliza um processo de difusão de profundidade guiada. Esse método usa um modelo de difusão de mapas de profundidade pré-treinado para ajustar a estimativa de profundidade para corresponder à geometria das partes existentes da cena.

Experimentos mostraram que o WonderWorld é significativamente superior aos métodos anteriores de geração de cenas 3D em termos de velocidade e qualidade visual. Em estudos com usuários, as cenas geradas foram consideradas mais convincentes visualmente do que as geradas por outros métodos.

Embora o WonderWorld seja significativamente superior aos métodos anteriores em velocidade e qualidade visual, ele ainda apresenta algumas limitações. Por exemplo, ele só pode criar superfícies frontais, limitando o ângulo de movimento do usuário no mundo virtual a aproximadamente 45 graus. Além disso, os mundos gerados atualmente parecem silhuetas de papel, e podem ocorrer elementos "buracos" ou "flutuantes" ao lidar com objetos detalhados como árvores.

Apesar dessas limitações, os pesquisadores estão confiantes no potencial do WonderWorld, especialmente no desenvolvimento de jogos, realidade virtual e criação de mundos virtuais dinâmicos. A avaliação dos usuários sobre a qualidade visual das cenas geradas demonstra o amplo potencial de aplicação dessa tecnologia.

Entrada do projeto: https://kovenyu.com/wonderworld/

Destaques:

🌟 O WonderWorld AI consegue gerar cenas 3D em tempo real usando apenas uma foto, com velocidade de até 10 segundos.

🎮 O sistema permite que os usuários controlem o conteúdo e o layout da cena, sendo adequado para desenvolvimento de jogos e aplicações de realidade virtual.

🚧 A tecnologia atual apresenta algumas limitações, principalmente na geração apenas de superfícies frontais e na falta de detalhes no processamento.