昨日晚间,Stability AI发布了其最强大的模型——Stable Diffusion3.5,这不仅是一个单一的模型,而是一个包含三个版本的全家桶,旨在满足从科研人员到业务爱好者、初创公司和企业的多样化需求。
这三个版本分别是Stable Diffusion3.5Large、Stable Diffusion3.5Large Turbo和即将于10月29日发布的Stable Diffusion3.5Medium。
Stable Diffusion3.5Large是一个拥有80亿参数的基础模型,以其卓越的图像质量和提示词精确度而著称,非常适合专业用途,能够生成高达1百万像素分辨率的图像。
Stable Diffusion3.5Large Turbo是前者的蒸馏版本,它能够在仅4步内生成高质量图像,生成速度远快于Stable Diffusion3.5Large。
而Stable Diffusion3.5Medium则拥有25亿参数,采用改进的MMDiT-X架构和训练方法,设计为即插即用,能够在消费级硬件上直接运行,平衡了图像质量与可定制性,能够生成分辨率在0.25到2百万像素之间的图像。
这些模型的开发优先考虑了可定制性,通过将Query-Key Normalization集成到transformer块中,稳定了模型训练过程并简化了进一步的微调和开发。为了支持下游任务的灵活性,Stability AI在模型中保留了更广泛的知识基础和多样化的风格,尽管这可能导致输出结果的不确定性增加。
Stable Diffusion3.5模型在多个方面表现出色,包括可定制性、高效性能和多样化输出。这些模型能够轻松微调以满足特定创作需求,或根据定制的工作流程构建应用程序。它们还经过优化,可在标准消费级硬件上运行,无需过高的硬件要求。此外,这些模型能够创建代表全世界的图像,无需大量的提示词,同时能够生成各种风格和美感的图片,如3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。
Stability AI还强调了其对安全的承诺,采取了合理的措施防止Stable Diffusion3.5被滥用,并从开发早期阶段就注重完整性。此外,Stability AI社区许可非常宽松,允许个人和组织免费使用该模型进行非商业用途,包括科学研究。对于年收入不超过100万美元的初创公司、中小型企业和创作者,也可以免费将该模型用于商业用途。保留生成媒体的所有权,无需受到限制性许可的影响。
Stable Diffusion3.5模型已经在Hugging Face上可供自托管使用,并且推理代码也已经开源。此外,还可以通过Stability AI API、Replicate、ComfyUI和DeepInfra等平台访问该模型。
体验地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large