Científicos de la Universidad de Ciencia y Tecnología de Shanghai han desarrollado recientemente un modelo de inteligencia artificial llamado CLAY, capaz de generar objetos 3D detallados a partir de descripciones textuales o imágenes 2D. En comparación con las tecnologías anteriores, CLAY ha logrado un avance significativo en la calidad y diversidad de los objetos 3D generados.
El núcleo del modelo CLAY incluye un autocodificador variacional multiresolución (VAE) y un transformador de difusión (DiT). El VAE se encarga de codificar las formas geométricas 3D de diferentes niveles de detalle en un espacio latente, mientras que el DiT genera estas formas geométricas. A diferencia de muchos otros sistemas, CLAY puede procesar contenido 3D directamente, sin necesidad de una conversión previa a imágenes 2D.
CLAY ha sido entrenado con más de 500.000 modelos 3D, que abarcan una variedad de objetos, desde artículos cotidianos simples hasta criaturas fantásticas complejas. Además, CLAY tiene la capacidad de ser controlado mediante entradas adicionales. Los usuarios pueden especificar formas aproximadas (como estructuras de vóxeles, nubes de puntos) o cuadros delimitadores para lograr un control preciso del resultado generado. Esta flexibilidad permite a CLAY generar escenas urbanas completas, o incluso reconstruir modelos 3D detallados a partir de bocetos a mano alzada.
En comparación con otros sistemas (como Shap-E, DreamFusion, Wonder3D), CLAY muestra ventajas significativas. Tanto en la conversión de texto a 3D como de imagen a 3D, CLAY genera formas geométricas más consistentes, superficies más suaves y detalles más finos. La velocidad de generación de activos 3D de alta calidad de CLAY es asombrosa, requiriendo solo unos 45 segundos, mientras que algunos sistemas comparables pueden tardar varias horas en optimizar.
Las posibles aplicaciones de CLAY son muy amplias, incluyendo el desarrollo de juegos, la producción cinematográfica y la impresión 3D. A pesar de esto, los investigadores son conscientes de los riesgos potenciales de la generación de contenido virtual por IA, por lo que planean añadir más medidas de seguridad para garantizar un uso responsable.
En el futuro, los investigadores planean ampliar aún más los datos de entrenamiento, mejorar la calidad del modelo e integrar la generación de geometría y la síntesis de materiales en un solo modelo para lograr una funcionalidad más completa. Se puede acceder a una versión de CLAY a través del servicio 3D-Gen Rodin.
Acceso al producto: https://hyperhuman.deemos.com/rodin
### Puntos clave:
- 🏆 **Avance de CLAY en la tecnología de generación 3D**: CLAY puede generar objetos 3D detallados a partir de texto e imágenes, con una calidad y velocidad superiores a las tecnologías anteriores.
- ⚡ **Velocidad de generación asombrosa**: CLAY genera activos 3D de alta calidad en aproximadamente 45 segundos, mucho más rápido que otros sistemas.
- 🎮 **Amplias perspectivas de aplicación**: CLAY tiene el potencial de desempeñar un papel importante en múltiples campos, como el desarrollo de juegos, la producción cinematográfica y la impresión 3D.