Cientistas da Universidade de Ciência e Tecnologia de Xangai recentemente desenvolveram um modelo de inteligência artificial chamado CLAY, que pode gerar objetos 3D detalhados a partir de descrições de texto ou imagens 2D. Comparado com tecnologias anteriores, o CLAY apresenta avanços significativos na qualidade e na diversidade dos objetos 3D gerados.
O núcleo do modelo CLAY inclui um autocodificador variacional multi-resolução (VAE) e um transformador de difusão (DiT). O VAE é responsável por codificar formas geométricas 3D de diferentes níveis de detalhe em um espaço latente, enquanto o DiT gera essas formas geométricas. Diferentemente de muitos outros sistemas, o CLAY consegue processar conteúdo 3D diretamente, sem precisar de conversão prévia para imagens 2D.
O CLAY foi treinado com mais de 500.000 modelos 3D, abrangendo uma variedade de objetos, desde itens cotidianos simples até criaturas fantásticas complexas. Além disso, o CLAY possui a capacidade de ser controlado por meio de entradas adicionais. Os usuários podem especificar formas aproximadas (como estruturas de voxels, nuvens de pontos) ou caixas delimitadoras para controlar com precisão o resultado gerado. Essa flexibilidade permite que o CLAY gere cenas de cidades inteiras ou reconstrua modelos 3D detalhados a partir de esboços feitos à mão.
Em comparação com outros sistemas (como Shap-E, DreamFusion, Wonder3D), o CLAY demonstra vantagens significativas. Seja na conversão de texto para 3D ou de imagem para 3D, o CLAY gera formas geométricas mais consistentes, superfícies mais lisas e detalhes mais refinados. A velocidade de geração de ativos 3D de alta qualidade do CLAY também é impressionante, levando apenas cerca de 45 segundos, enquanto alguns sistemas comparáveis podem levar horas para otimização.
As aplicações potenciais do CLAY são vastas, incluindo desenvolvimento de jogos, produção cinematográfica e impressão 3D. Apesar disso, os pesquisadores também reconhecem os riscos potenciais da geração de conteúdo virtual por IA, portanto, planejam adicionar mais medidas de segurança para garantir o uso responsável.
No futuro, os pesquisadores também planejam expandir ainda mais os dados de treinamento, melhorar a qualidade do modelo e integrar a geração de geometria e a síntese de materiais em um único modelo para alcançar funcionalidades mais completas. Uma versão do CLAY pode ser acessada através do serviço 3D-Gen Rodin.
Acesso ao produto: https://hyperhuman.deemos.com/rodin
### Destaques:
- 🏆 **Avanço do CLAY na tecnologia de geração 3D**: O CLAY pode gerar objetos 3D detalhados a partir de texto e imagens, com qualidade e velocidade superiores às tecnologias anteriores.
- ⚡ **Velocidade de geração impressionante**: O CLAY gera ativos 3D de alta qualidade em apenas cerca de 45 segundos, muito mais rápido do que outros sistemas.
- 🎮 **Amplas perspectivas de aplicação**: O CLAY tem potencial para desempenhar um papel importante em diversos setores, como desenvolvimento de jogos, produção cinematográfica e impressão 3D.