比FLUX快100倍！英伟达联手MIT、清华推出超快AI图像生成模型Sana，笔记本也能秒速出图！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Oct 17, 2024

912

英伟达与麻省理工学院、清华大学的研究人员合作开发了一款名为Sana的全新文本到图像生成框架，该框架能够高效生成高达4096×4096分辨率的图像。

Sana可以在极快的速度下合成高分辨率、高质量且与文本高度一致的图像，甚至可以在笔记本电脑的GPU上运行。

Sana 的核心设计包括:

深度压缩自动编码器: 与传统的自动编码器仅压缩图像8倍不同，Sana 训练的自动编码器可以将图像压缩32倍，有效减少了潜在标记的数量。

线性 DiT: Sana 将 DiT 中所有普通的注意力机制替换为线性注意力机制，这在高分辨率图像生成时更加高效，且不会牺牲质量。

仅解码器文本编码器: 研究人员用更先进的小型仅解码器语言模型（LLM） Gemma 替换了 T5作为文本编码器，并设计了复杂的人类指令和上下文学习来增强图像与文本的一致性。

高效的训练和采样: Sana 提出了 Flow-DPM-Solver 来减少采样步骤，并通过高效的标题标记和选择来加速模型收敛。

得益于这些设计，Sana-0.6B 在性能上与大型扩散模型（如 Flux-12B）不相上下，但模型规模却小20倍，速度快100多倍。

此外，Sana-0.6B 可以部署在16GB 的笔记本电脑 GPU 上，生成1024×1024分辨率的图像只需不到1秒钟，Sana 使低成本的内容创作成为可能。

Sana 的主要优势在于其高效性。在4K 图像生成方面，Sana-0.6B 的吞吐量比目前最先进的方法（FLUX）快100多倍，在1K 分辨率下快40倍。

研究人员还对 Sana-0.6B 进行了量化，并将其部署在边缘设备上。在配备 RTX-4090GPU 的消费级设备上，生成1024×1024分辨率的图像只需0.37秒，为实时图像生成提供了强大的基础模型。

未来，研究人员计划基于 Sana 构建一个高效的视频生成流程。然而，该研究也存在一些局限性，例如无法完全保证生成图像内容的安全性和可控性，在文本渲染、人脸和手部生成等复杂情况下也存在挑战。

项目地址：https://nvlabs.github.io/Sana/

论文地址：https://arxiv.org/pdf/2410.10629

Sana 文本到图像生成英伟达高分辨率图像

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

1.2k

英伟达计划收购贾扬清创办的AI初创公司Lepton AI 推动云计算布局

根据外媒《信息》的报道，英伟达即将收购知名 AI 创业公司 Lepton AI，交易金额预计在数亿美元。这一举措标志着英伟达正积极进军云计算和企业软件市场，力图与亚马逊、谷歌等主要云服务商展开竞争。Lepton AI 成立于两年前，由著名科学家贾扬清及其团队创立。该公司专注于为 AI 时代构建新型基础设施，致力于简化 AI 模型的构建与部署。与许多创业公司不同，Lepton AI 并不直接训练大型模型，而是提供所需的基础设施，帮助开发者高效地进行 AI 应用开发。Lepton AI 的核心产品包括 Python S

2025年3月28号 16:23

1.7k

英伟达或将收购 Lepton AI，进军服务器租赁市场

近日，有消息称，全球半导体巨头英伟达（Nvidia）正在接近收购初创公司 Lepton AI 的交易，交易金额可能达到数亿美元。Lepton AI 成立于两年前，专注于租赁使用英伟达 AI 芯片的服务器，并将这些服务器租赁给其他企业。根据《信息》(The Information)网站的报道，这笔交易正在紧锣密鼓地进行中，尽管英伟达方面尚未对此进行正式回应。Lepton AI 在2023年5月完成了一轮1100万美元的种子融资，由 CRV 和 Fusion Fund 领投。尽管成立时间不久，但 Lepton AI 已经在市场上建立了一定的知名度，成为了服务器

2025年3月27号 9:59

1.1k

马斯克的xAI与英伟达携手微软、黑岩集团，共同推动AI基础设施投资

近日，马斯克旗下的 xAI 公司与英伟达共同加入了微软和黑岩集团组成的 AI 基础设施合作伙伴关系（AIP），旨在加速对新型及扩展 AI 基础设施的投资。此次合作将进一步巩固该伙伴关系的领导地位，推动全球 AI 基础设施的发展。图源备注:图片由AI生成，图片授权服务商Midjourney根据公告，AIP 最初于去年九月成立，目标是筹集300亿美元的资金，以 mobilize 高达1000亿美元的投资潜力。AIP 还计划与 GE Vernova 和 NextEra Energy 合作，推动关键的多样化能源技术，为 AI 数据中心提供支持。GE Vernova 将参

2025年3月27号 9:13

1.3k

前英特尔CEO批评英伟达AI芯片定价，认为推理才是未来机遇

前英特尔首席执行官帕特・盖尔辛格（Pat Gelsinger）近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示，英伟达的人工智能(AI)图形处理器(GPU)定价策略过高，难以支持大规模的 AI 推理任务。盖尔辛格指出，推理是部署 AI 模型的关键环节，当前行业的发展趋势应该更关注推理，而英伟达的技术在成本效益上难以满足这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney他提到，英伟达用于 AI 训练的处理器价格高达现实所需的10，000倍之多。虽然盖尔辛格承认早期生成式 AI 的快速

2025年3月25号 14:59

1.2k

清华与蚂蚁数科携手突破：BodyGen助力机器人性能跃升 60%

近年来，具身智能热度飙升，从春晚机器人精彩表演，到被写入政府工作报告，再到英伟达黄仁勋多次力推，它已成为AI领域的焦点。具身智能旨在让机器人像人类一样，在真实世界中精准感知、灵活应对。清华大学与蚂蚁数科的研究团队带来重大突破，他们在ICLR2025发表的论文中提出BodyGen算法框架。这一框架结合强化学习与深度神经网络技术，能让机器人短时间内自动演化出适应环境的最优形态及控制策略，实测性能提升60%，且代码已在GitHub开源。传统机器人设计面临诸多难题，如依赖

2025年3月25号 14:51

2.0k

国产AI芯片崛起！消息称蚂蚁集团训练成本骤降20%，媲美英伟达

据彭博社援引知情人士报道，蚂蚁集团在人工智能领域取得了重大突破，通过采用阿里巴巴和华为生产的中国芯片，成功将AI模型的训练成本削减了20%。这一消息无疑为中国在关键技术领域的自主可控注入了新的动力。报道进一步指出，蚂蚁集团的内部测试显示，这些中国制造的AI芯片在性能上能够与行业领导者英伟达的同类产品相媲美。这一结果如果得到广泛验证和应用，将可能显著改变全球AI芯片市场的格局。图源备注：图片由AI生成，图片授权服务商Midjourney此前，市场曾有传言称中国

2025年3月25号 9:39

2.4k

英伟达计划在美国投资数千亿推动半导体供应链发展

全球市值最高的半导体公司英伟达近日宣布，将在未来四年内在美国的供应链上投资数千亿美元。根据《金融时报》的报道，英伟达预计将在电子产品领域支出约 5000 亿美元，其中很大一部分将用于美国的运营。这一重大投资计划被认为是对特朗普 “美国优先” 贸易政策的响应，同时也跟随了苹果等其他科技巨头的类似公告。英伟达首席执行官黄仁勋在接受《金融时报》采访时指出，公司已经可以通过台积电（TSMC）和富士康等供应商在美国制造其最新的系统。这一宣布恰逢公司在本周举

2025年3月21号 17:09

1.5k

英伟达重磅出手！收购合成数据初创公司Gretel，加速布局生成式AI

人工智能芯片巨头英伟达（Nvidia）传出重大收购消息，其已收购位于圣地亚哥的初创公司Gretel。Gretel 专注于开发用于生成合成人工智能训练数据的平台。据 Wired 报道，此次收购的价格达到了九位数美元，超过了 Gretel 最近一次3.2亿美元的估值，但具体的交易条款尚未公开。Gretel 成立于2019年，由 Alex Watson、Laszlo Bock、John Myers 和 Ali Golshan 联合创立，其中 Ali Golshan 担任公司首席执行官。这家初创公司通过微调模型、添加专有技术，并将这些模型打包出售。在被英伟达收购之前，Gretel 已经从包

2025年3月20号 10:02

1.8k

OpenAI星际之门项目首个数据中心将可容纳多达40万个英伟达芯片

据彭博社报道，OpenAI 正在大规模投资建立其首个名为 “星际之门”（Stargate）的基础设施项目，预计耗资达1，000亿美元。该项目的首个数据中心综合体位于德克萨斯州的小城阿比林，计划能够容纳多达40万片 Nvidia 生产的强大 AI 晶片，一旦完全投入使用，将成为全球最大的人工智能算力中心之一。图源备注：图片由AI生成，图片授权服务商Midjourney根据开发商 Crusoe 的说法，这个庞大的数据中心预计将在2026年中期完工，具备1.2吉瓦的发电容量。虽然该设施能够支持大量的先进 AI 晶片，但具

2025年3月19号 16:04

2.3k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图