zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-17 14:01:40
.
AIbase
.
12.5k
比FLUX快100倍!英伟达联手MIT、清华推出超快AI图像生成模型Sana,笔记本也能秒速出图!
英伟达与麻省理工学院、清华大学的研究人员合作开发了一款名为Sana的全新文本到图像生成框架,该框架能够高效生成高达4096×4096分辨率的图像。Sana可以在极快的速度下合成高分辨率、高质量且与文本高度一致的图像,甚至可以在笔记本电脑的GPU上运行。Sana 的核心设计包括:深度压缩自动编码器: 与传统的自动编码器仅压缩图像8倍不同,Sana 训练的自动编码器可以将图像压缩32倍,有效减少了潜在标记的数量。线性 DiT: Sana 将 DiT 中所有普通的注意力机制替换为线性注意力机制,这在高分
2024-10-11 14:08:06
.
AIbase
.
12.3k
快手北大推超高清视频生成模型Pyramid-Flow 可生成24帧高分辨率视频
快手、北京大学和北京邮电大学的研究团队联手推出了一项重磅科技成果——Pyramid-Flow超高清视频模型。这一开源项目在人工智能生成视频领域取得了显著突破,为行业带来了新的可能性。Pyramid-Flow模型展现了惊人的能力,仅需文本输入即可生成长达10秒、分辨率高达1280x768、帧率24fps的高质量视频。无论是光影效果、动作连贯性、整体画质、文本语义还原,还是色彩搭配,Pyramid-Flow都表现出色,生成的视频令人叹为观止。这项技术的一大亮点在于其高效的训练过程。研究团队仅使用A100GPU在
2024-08-15 16:59:04
.
AIbase
.
11.1k
颠覆传统!Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像
多模态生成模型正引领人工智能新潮流,专注于融合视觉与文本数据,以创造多功能AI系统,执行从图像生成到跨数据类型理解与推理的多种任务。其中,关键挑战是提升自回归(AR)模型能力,使其能根据文本描述生成高细节图像。尽管扩散模型在生成高质量图像方面表现出色,AR模型在图像质量、分辨率灵活性及多任务处理能力上相对滞后。上海AI实验室和香港中文大学的研究人员推出Lumina-mGPT,一种基于解码器-only的变换器架构,采用多模态生成预训练方法,旨在克服AR模型限制,实现与扩散模型同等水平的逼真图像生成,同时保持简便性和可扩展性。Lumina-mGPT采用详尽的灵活渐进的监督微调策略,增强图像生成能力,支持高分辨率图像生成(1024×1024像素),细节丰富且与文本提示高度一致。该模型在图像质量、视觉一致性及多种任务支持方面超越前代模型,仅需较小数据集即可实现卓越性能,预示未来AI系统将更加复杂与多才多艺。
2024-07-31 08:57:49
.
AIbase
.
10.7k
AI虚拟换衣模型CatVTON:参数小仅899.06M 支持高分辨率
CatVTON是一款专为时尚爱好者设计的轻量级AI虚拟换衣模型,总参数为899.06M,训练时只需49.57M可训练参数。推理时显存需求低于8G,支持1024x768高分辨率,适合个人电脑操作。该模型具备在ComfyUI和Gradio应用上快速部署的能力,支持VITON-HD和DressCode数据集的推理,并提供多种精度选项,以适应不同硬件条件。CatVTON利用基于Stable Diffusion v1.5的图像修复技术,结合SCHP和DensePose,能自动生成面具,提升试妆体验。