Com o rápido desenvolvimento da tecnologia de IA, a humanidade parece estar mais perto do cenário virtual do filme "Matrix". Recentemente, um simulador de mundo baseada em IA chamado "The Matrix" foi lançado. Este inovador resultado, desenvolvido por uma equipe totalmente chinesa, consegue gerar infinitamente vídeos de cenas reais em alta fidelidade com 720p e suporta interação em tempo real.

O simulador apresenta um vídeo de demonstração de 14 minutos, mas na verdade pode gerar conteúdo contínuo por até uma hora, abrangendo vários cenários, como desertos, pradarias, corpos d'água e cidades. Durante a experiência, os usuários podem controlar o vídeo em tempo real usando as teclas W, A, S e D do teclado, desfrutando de imagens dinâmicas a 16 quadros por segundo.

image.png

A equipe de desenvolvimento do projeto "The Matrix" é composta por membros da Alibaba, Universidade de Hong Kong, Universidade de Waterloo e do Vector Institute, uma instituição de pesquisa de IA canadense. O nome "The Matrix" foi inspirado em uma frase icônica do filme: "Este é o mundo que você conhece; agora ele existe apenas em um sistema de simulação neuro-interativa que chamamos de Matrix."

Prompt: admin@matrix: A cena mostra um ambiente urbano onde uma longa estrada reta se estende sob uma rodovia elevada ou ponte, ladeada por cercas que indicam construção ou acesso restrito. A rua é marcada com duas linhas amarelas, e pilares de concreto maciços sustentam a via acima, projetando sombras abaixo. Na parede esquerda, números digitais vermelhos são visíveis, possivelmente usados ​​para monitoramento ou alertas, acompanhados de materiais de construção e barricadas, significando desenvolvimento ativo. Do lado direito, a infraestrutura e uma placa azul neon 'PAWN SHOP' indicam atividade comercial próxima. Além do viaduto, a estrada leva a edifícios modernos altos, cujas janelas iluminadas mostram o dinamismo da paisagem urbana. Os postes de luz e os displays digitais fornecem iluminação limitada, adicionando à sensação futurista. Apesar dos sinais de atividade, a estrada está desprovida de veículos ou pedestres, contribuindo para uma sensação de silêncio. A parte do céu fora da ponte contrasta com as sombras projetadas abaixo, enquanto a construção ao redor e a arquitetura avançada criam uma atmosfera de uma cidade que está em evolução e futurista.

O principal destaque do projeto é o controle de quadro sem precedentes, permitindo que cada ação do usuário tenha uma resposta imediata, como se estivesse imerso na experiência. Os usuários podem experimentar dirigir um carro através de desertos, florestas ou cidades em diferentes cenários, na primeira ou terceira pessoa. Treinado com dados de jogos AAA como "Forza Horizon 5" e "Cyberpunk 2077", o sistema consegue gerar cenários quase indistinguíveis da realidade. Mais importante ainda, os usuários podem desfrutar de uma experiência de vídeo contínua, atravessando vários ambientes sem interrupções.

Além de gerar vídeos infinitamente e imagens de alta qualidade, "The Matrix" também possui generalização de zero-shot. Isso significa que o simulador pode entender e prever o comportamento e a interação de objetos em diferentes ambientes, mesmo sem dados de treinamento correspondentes.

Os dados de treinamento da simulação são principalmente provenientes de dados supervisionados de três jogos AAA e de uma grande quantidade de vídeos não supervisionados de cenários reais. Diferentemente de pesquisas anteriores, a inovação dessa tecnologia reside em sua capacidade de aprendizado, permitindo a geração precisa em ambientes desconhecidos.

image.png

Por exemplo, o simulador pode mostrar um "BMW X3 dirigindo em um ambiente" ou a imagem fantástica de um "carro nadando na água". Do ponto de vista técnico, "The Matrix" é composto por três módulos principais: módulo de interação, modelo de processo de remoção de ruído de janela deslizante e modelo de consistência de fluxo. O módulo de interação é responsável por entender a entrada do usuário e integrá-la à geração de vídeo, enquanto o modelo de processo de remoção de ruído de janela deslizante torna a geração de vídeos longos viável, resolvendo o gargalo dos modelos tradicionais na geração de sequências longas. Finalmente, a integração do modelo de consistência de fluxo aumenta significativamente a velocidade de inferência, permitindo a geração em tempo real.

Os líderes do projeto, Hongyang Zhang e Ruili Feng, disseram que continuarão a impulsionar o desenvolvimento dessa tecnologia, buscando proporcionar aos usuários uma experiência virtual ainda mais realista.

Prompt: O vídeo mostra uma mulher de perto dentro de um carro, usando óculos escuros grandes e vestida de preto.

Acesso ao projeto: https://thematrix1999.github.io/

Artigo: https://thematrix1999.github.io/article/the_matrix.pdf

Destaques:

🌐 Simulador "The Matrix", versão IA de "Matrix", lançado, suporta geração infinita de vídeos em 720p.

🎮 Os usuários podem controlar a cena do vídeo em tempo real, experimentando imagens dinâmicas a 16 quadros por segundo.

🚀 Essa tecnologia possui capacidade de generalização de zero-shot, podendo prever o comportamento de objetos em diferentes ambientes.