上海科技大学的科学家们最近开发了一款名为CLAY的人工智能模型,这款模型可以从文字描述或二维图像中生成详细的3D物体。与以往的技术相比,CLAY在生成3D物体的质量和多样性方面都取得了显著突破。

image.png

CLAY模型的核心包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。VAE负责将不同细节层次的3D几何形状编码到潜在空间中,而DiT则负责生成这些几何形状。与许多其他系统不同的是,CLAY能够直接处理3D内容,无需先转换为2D图像。

CLAY的训练数据超过了50万种3D模型,涵盖了从简单的日常物品到复杂的幻想生物的各种对象。此外,CLAY还具备通过额外输入进行控制的能力,用户可以通过指定粗略形状(如体素结构、点云)或边界框来实现对生成结果的精确控制。这种灵活性使得CLAY可以生成整个城市场景,甚至从手绘草图中重建详细的3D模型。

在与其他系统(如Shap-E、DreamFusion、Wonder3D)进行比较时,CLAY表现出了明显的优势。无论是文字转3D还是图像转3D,CLAY都能够生成更一致的几何形状,表面更加光滑,细节更加精细。CLAY生成高质量3D资产的速度也十分惊人,仅需约45秒,而一些比较系统可能需要几小时来优化。

CLAY的潜在应用非常广泛,包括游戏开发、电影制作和3D打印等领域。尽管如此,研究人员也意识到AI生成虚拟内容的潜在风险,因此他们计划增加更多的安全措施,以确保负责任的使用。

未来,研究人员还计划进一步扩展训练数据,提高模型质量,并将几何生成和材料合成整合到一个单一模型中,以实现更全面的功能。可以通过3D-Gen 服务 Rodin 访问 CLAY 的一个版本。

产品入口:https://hyperhuman.deemos.com/rodin

### 划重点:

- 🏆 **CLAY在3D生成技术上的突破**:CLAY能从文字和图像中生成详细的3D物体,生成质量和速度均优于以往技术。

- ⚡ **生成速度惊人**:CLAY生成高质量的3D资产仅需约45秒,比其他系统快得多。

- 🎮 **广泛应用前景**:CLAY有潜力在游戏开发、电影制作和3D打印等多个领域发挥重要作用。