Wissenschaftler der Shanghaier Universität für Wissenschaft und Technologie haben kürzlich ein KI-Modell namens CLAY entwickelt, das detaillierte 3D-Objekte aus Textbeschreibungen oder zweidimensionalen Bildern generieren kann. Im Vergleich zu bisherigen Technologien erzielt CLAY einen bemerkenswerten Durchbruch in Bezug auf die Qualität und Vielfalt der generierten 3D-Objekte.

image.png

Das Herzstück des CLAY-Modells besteht aus einem mehrskaligen varianten Autoencoder (VAE) und einem Diffusions-Transformer (DiT). Der VAE kodiert 3D-Geometrien verschiedener Detaillierungsstufen in einen latenten Raum, während der DiT diese Geometrien generiert. Im Gegensatz zu vielen anderen Systemen kann CLAY direkt mit 3D-Inhalten umgehen, ohne vorherige Konvertierung in 2D-Bilder.

CLAY wurde mit über 500.000 3D-Modellen trainiert, die von einfachen Alltagsgegenständen bis hin zu komplexen Fantasiewesen reichen. Darüber hinaus bietet CLAY die Möglichkeit der Steuerung durch zusätzliche Eingaben. Benutzer können die Generierungsergebnisse durch die Angabe grober Formen (z. B. Voxelstrukturen, Punktwolken) oder Bounding Boxes präzise steuern. Diese Flexibilität ermöglicht es CLAY, ganze Stadtlandschaften zu generieren oder detaillierte 3D-Modelle aus handgezeichneten Skizzen zu rekonstruieren.

Im Vergleich zu anderen Systemen (wie Shap-E, DreamFusion, Wonder3D) zeigt CLAY deutliche Vorteile. Sowohl bei der Text-zu-3D- als auch bei der Bild-zu-3D-Konvertierung erzeugt CLAY konsistentere Geometrien mit glatteren Oberflächen und feineren Details. Die Geschwindigkeit, mit der CLAY hochwertige 3D-Assets generiert, ist ebenfalls erstaunlich: Nur etwa 45 Sekunden, während einige Vergleichssysteme mehrere Stunden zur Optimierung benötigen.

CLAYs potenzielle Anwendungen sind sehr vielfältig und umfassen Bereiche wie Spieleentwicklung, Filmherstellung und 3D-Druck. Dennoch sind sich die Forscher der potenziellen Risiken der KI-generierten virtuellen Inhalte bewusst und planen daher die Implementierung weiterer Sicherheitsmaßnahmen, um eine verantwortungsvolle Nutzung zu gewährleisten.

Zukünftig planen die Forscher, die Trainingsdaten weiter zu erweitern, die Modellqualität zu verbessern und die Geometrierzeugung und Materialsynthese in einem einzigen Modell zu integrieren, um umfassendere Funktionen zu erreichen. Eine Version von CLAY ist über den 3D-Gen-Service Rodin zugänglich.

Produktzugang: https://hyperhuman.deemos.com/rodin

### Wichtigste Punkte:

- 🏆 **Durchbruch in der 3D-Generierungstechnologie**: CLAY kann detaillierte 3D-Objekte aus Text und Bildern generieren, mit höherer Qualität und Geschwindigkeit als bisherige Technologien.

- ⚡ **Erstaunliche Generierungsgeschwindigkeit**: CLAY generiert hochwertige 3D-Assets in nur etwa 45 Sekunden, deutlich schneller als andere Systeme.

- 🎮 **Vielversprechende Anwendungsmöglichkeiten**: CLAY hat das Potenzial, in verschiedenen Bereichen wie Spieleentwicklung, Filmherstellung und 3D-Druck eine wichtige Rolle zu spielen.