A startup de robótica 1X Technologies desenvolveu um novo modelo generativo que melhora a eficiência do treinamento de sistemas robóticos em simulação. A empresa anunciou o modelo em uma nova postagem de blog, abordando um dos desafios importantes da robótica: aprender um "modelo de mundo (1X World Model)" que preveja como o mundo muda em resposta às ações do robô.

image.png

Partindo da mesma sequência inicial de imagens, este modelo de mundo pode imaginar múltiplos cenários futuros com base em diferentes propostas de ação.

Essa capacidade permite que ele preveja interações de objetos complexas, como o movimento de corpos rígidos, os efeitos de objetos caindo e a interação com objetos deformáveis (como cortinas e roupas) e articulados (como portas e gavetas).

A avaliação é um desafio muito prático, mas muitas vezes negligenciado, na construção de robôs de uso geral. Se um robô é treinado para realizar 1000 tarefas únicas, é difícil determinar se um novo modelo melhora em todas as 1000 tarefas. Pequenas mudanças no ambiente, como mudanças de fundo e iluminação, podem tornar os resultados experimentais antigos irrelevantes, especialmente em ambientes dinâmicos de casa ou escritório.

image.png

Para superar esse problema, a 1X adotou uma abordagem totalmente nova, construindo simuladores diretamente a partir de dados de sensores reais para avaliar as políticas de robôs 1X em milhões de cenários. Esses simuladores não são apenas repetíveis, mas também capturam a complexidade do mundo real.

Durante o treinamento da 1X, foram coletadas milhares de horas de dados de robôs humanoides realizando várias tarefas de manipulação em ambientes domésticos e de escritório. Com esses dados, o modelo de mundo da 1X consegue prever vídeos futuros com base em observações e ações.

Sob diferentes comandos de ação, o modelo consegue gerar resultados diversificados, mostrando sua forte capacidade de simulação de interação de objetos. Mesmo sem comandos de ação específicos, o modelo consegue gerar vídeos coerentes, como identificar e evitar pessoas e obstáculos durante a condução.

Além disso, o modelo também consegue gerar vídeos de tarefas mais longas, como dobrar uma camiseta.

Claro, o modelo 1X também enfrenta alguns desafios, como a possível incapacidade de manter a forma e a cor dos objetos durante as interações ou o desaparecimento de objetos em alguns casos.

Também existe uma limitação na compreensão das leis da física, como objetos às vezes flutuando no ar em vídeos gerados.

Para impulsionar a pesquisa nessa área, a 1X lançou mais de 100 horas de vídeos vetorizados e um modelo de base pré-treinado, e lançou o Desafio do Modelo Mundial 1X, com várias etapas e prêmios em dinheiro, para incentivar mais pesquisas.

Destaques:

🌟 Modelos de mundo são simuladores virtuais capazes de prever a interação entre o comportamento do robô e o ambiente.

🤖 Ao aprender com dados reais, o modelo permite avaliações em milhões de cenários, melhorando a inteligência robótica.

💰 Para impulsionar a pesquisa, foi lançado o Desafio do Modelo Mundial 1X, com prêmios em dinheiro como incentivo.