De acordo com a conta oficial do WeChat da equipe do modelo Doubao, em uma pesquisa conjunta da Universidade de Transportes de Pequim e da Universidade de Ciência e Tecnologia da China, o modelo experimental de geração de vídeo "VideoWorld", proposto pela equipe do modelo Doubao, foi recentemente lançado como código aberto.

fe388a9d-3646-4938-852b-eb54f76ca4b8.png

O maior destaque deste modelo é que ele não depende mais dos modelos de linguagem tradicionais, mas sim, apenas de informações visuais para reconhecer e compreender o mundo. Esta pesquisa inovadora foi inspirada na ideia da Professora Fei-Fei Li, mencionada em sua palestra TED, de que "crianças pequenas podem compreender o mundo real sem depender da linguagem".

O "VideoWorld" consegue realizar capacidades complexas de raciocínio, planejamento e tomada de decisão através da análise e processamento de grandes quantidades de dados de vídeo. Experimentos da equipe de pesquisa mostraram que o modelo obteve resultados significativos com apenas 300 milhões de parâmetros. Diferentemente dos modelos existentes que dependem de linguagem ou dados de etiquetas, o VideoWorld pode aprender conhecimento de forma independente, especialmente em tarefas complexas como origami e amarrar gravatas, fornecendo uma forma de aprendizado mais intuitiva.

Para verificar a eficácia do modelo, a equipe de pesquisa criou dois ambientes experimentais: um jogo de Go e um controle de robô simulado. O Go, como um jogo altamente estratégico, pode avaliar efetivamente a capacidade de aprendizado de regras e raciocínio do modelo, enquanto a tarefa do robô avalia o desempenho do modelo em termos de controle e planejamento. Durante o treinamento, o modelo, através da observação de uma grande quantidade de dados de demonstração em vídeo, gradualmente estabelece a capacidade de prever imagens futuras.

Para melhorar a eficiência do aprendizado de vídeo, a equipe introduziu um modelo dinâmico latente (LDM), com o objetivo de comprimir as mudanças visuais entre os quadros de vídeo, extraindo assim informações essenciais. Este método não apenas reduz informações redundantes, mas também aumenta a eficiência de aprendizado do modelo para conhecimentos complexos. Através desta inovação, o VideoWorld demonstrou excelentes capacidades nas tarefas de Go e robótica, atingindo até mesmo o nível de um jogador profissional de Go de 5º dan.

Link do artigo:https://arxiv.org/abs/2501.09781

Link do código:https://github.com/bytedance/VideoWorld

Página do projeto:https://maverickren.github.io/VideoWorld.github.io

Destaques:

🌟 O modelo "VideoWorld" pode realizar o aprendizado de conhecimento apenas com informações visuais, sem depender de modelos de linguagem.  

🤖 O modelo demonstra excelente capacidade de raciocínio e planejamento em tarefas de Go e simulação de robôs.  

🔓 O código e o modelo deste projeto são de código aberto, e todos são bem-vindos a participar e trocar experiências.