AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-10-17 14:01:40.AIbase

比FLUX快100倍！英伟达联手MIT、清华推出超快AI图像生成模型Sana，笔记本也能秒速出图！

英伟达与麻省理工学院、清华大学的研究人员合作开发了一款名为Sana的全新文本到图像生成框架，该框架能够高效生成高达4096×4096分辨率的图像。Sana可以在极快的速度下合成高分辨率、高质量且与文本高度一致的图像，甚至可以在笔记本电脑的GPU上运行。Sana 的核心设计包括:深度压缩自动编码器: 与传统的自动编码器仅压缩图像8倍不同，Sana 训练的自动编码器可以将图像压缩32倍，有效减少了潜在标记的数量。线性 DiT: Sana 将 DiT 中所有普通的注意力机制替换为线性注意力机制，这在高分

比FLUX快100倍！英伟达联手MIT、清华推出超快AI图像生成模型Sana，笔记本也能秒速出图！

2024-10-11 14:08:06.AIbase

快手北大推超高清视频生成模型Pyramid-Flow 可生成24帧高分辨率视频

快手、北京大学和北京邮电大学的研究团队联手推出了一项重磅科技成果——Pyramid-Flow超高清视频模型。这一开源项目在人工智能生成视频领域取得了显著突破，为行业带来了新的可能性。Pyramid-Flow模型展现了惊人的能力，仅需文本输入即可生成长达10秒、分辨率高达1280x768、帧率24fps的高质量视频。无论是光影效果、动作连贯性、整体画质、文本语义还原，还是色彩搭配，Pyramid-Flow都表现出色，生成的视频令人叹为观止。这项技术的一大亮点在于其高效的训练过程。研究团队仅使用A100GPU在

快手北大推超高清视频生成模型Pyramid-Flow 可生成24帧高分辨率视频

2024-08-15 16:59:04.AIbase

颠覆传统！Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像

多模态生成模型正引领人工智能新潮流，专注于融合视觉与文本数据，以创造多功能AI系统，执行从图像生成到跨数据类型理解与推理的多种任务。其中，关键挑战是提升自回归（AR）模型能力，使其能根据文本描述生成高细节图像。尽管扩散模型在生成高质量图像方面表现出色，AR模型在图像质量、分辨率灵活性及多任务处理能力上相对滞后。上海AI实验室和香港中文大学的研究人员推出Lumina-mGPT，一种基于解码器-only的变换器架构，采用多模态生成预训练方法，旨在克服AR模型限制，实现与扩散模型同等水平的逼真图像生成，同时保持简便性和可扩展性。Lumina-mGPT采用详尽的灵活渐进的监督微调策略，增强图像生成能力，支持高分辨率图像生成（1024×1024像素），细节丰富且与文本提示高度一致。该模型在图像质量、视觉一致性及多种任务支持方面超越前代模型，仅需较小数据集即可实现卓越性能，预示未来AI系统将更加复杂与多才多艺。

颠覆传统！Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像

2024-07-31 08:57:49.AIbase

AI虚拟换衣模型CatVTON：参数小仅899.06M 支持高分辨率

CatVTON是一款专为时尚爱好者设计的轻量级AI虚拟换衣模型，总参数为899.06M，训练时只需49.57M可训练参数。推理时显存需求低于8G，支持1024x768高分辨率，适合个人电脑操作。该模型具备在ComfyUI和Gradio应用上快速部署的能力，支持VITON-HD和DressCode数据集的推理，并提供多种精度选项，以适应不同硬件条件。CatVTON利用基于Stable Diffusion v1.5的图像修复技术，结合SCHP和DensePose，能自动生成面具，提升试妆体验。

AI虚拟换衣模型CatVTON：参数小仅899.06M 支持高分辨率