Des scientifiques de l'Université des Sciences et Technologies de Shanghai ont récemment développé un modèle d'intelligence artificielle nommé CLAY, capable de générer des objets 3D détaillés à partir de descriptions textuelles ou d'images 2D. Comparé aux technologies précédentes, CLAY représente une avancée significative en termes de qualité et de diversité des objets 3D générés.
Le cœur du modèle CLAY repose sur un auto-encodeur variationnel multi-résolution (VAE) et un transformateur de diffusion (DiT). Le VAE encode les formes géométriques 3D à différents niveaux de détail dans un espace latent, tandis que le DiT génère ces formes. Contrairement à de nombreux autres systèmes, CLAY traite directement le contenu 3D, sans conversion préalable en images 2D.
CLAY a été entraîné sur plus de 500 000 modèles 3D, couvrant une grande variété d'objets, des articles de tous les jours simples aux créatures fantastiques complexes. De plus, CLAY peut être contrôlé par des entrées supplémentaires. Les utilisateurs peuvent spécifier une forme approximative (comme une structure de voxels, un nuage de points) ou une boîte englobante pour un contrôle précis du résultat généré. Cette flexibilité permet à CLAY de générer des scènes urbaines entières, voire de reconstruire des modèles 3D détaillés à partir de croquis à main levée.
Comparé à d'autres systèmes (tels que Shap-E, DreamFusion, Wonder3D), CLAY présente des avantages significatifs. Que ce soit pour la conversion texte-3D ou image-3D, CLAY génère des formes géométriques plus cohérentes, des surfaces plus lisses et des détails plus fins. La vitesse de génération d'actifs 3D de haute qualité par CLAY est également remarquable, environ 45 secondes seulement, alors que certains systèmes concurrents peuvent nécessiter plusieurs heures d'optimisation.
Les applications potentielles de CLAY sont vastes, notamment dans le développement de jeux vidéo, la production cinématographique et l'impression 3D. Néanmoins, les chercheurs sont conscients des risques potentiels liés à la génération de contenu virtuel par l'IA, et ils prévoient d'ajouter des mesures de sécurité supplémentaires pour garantir une utilisation responsable.
À l'avenir, les chercheurs envisagent d'étendre les données d'entraînement, d'améliorer la qualité du modèle et d'intégrer la génération de géométrie et la synthèse de matériaux dans un seul modèle pour des fonctionnalités plus complètes. Une version de CLAY est accessible via le service 3D-Gen Rodin.
Accès au produit : https://hyperhuman.deemos.com/rodin
### Points clés :
- 🏆 **Une percée dans la technologie de génération 3D :** CLAY génère des objets 3D détaillés à partir de texte et d'images, avec une qualité et une vitesse supérieures aux technologies précédentes.
- ⚡ **Vitesse de génération impressionnante :** CLAY génère des actifs 3D de haute qualité en seulement 45 secondes environ, beaucoup plus rapidement que les autres systèmes.
- 🎮 **Perspectives d'application vastes :** CLAY a le potentiel de jouer un rôle important dans de nombreux domaines, tels que le développement de jeux vidéo, la production cinématographique et l'impression 3D.