近日,智谱AI向公众开源了其最新力作——CogView3及其升级版CogView-3Plus-3B,为文生图领域注入了新的活力。

CogView3的亮相无疑是一个重要里程碑。作为首个在文本到图像生成领域实现中继扩散的模型,它采用了独特的级联扩散方法。这种创新性的approach首先生成低分辨率图像,随后通过基于中继的超分辨率技术来完成最终输出。这不仅大幅提升了生成图像的质量,还显著降低了训练和推理的成本。

image.png

最令人瞩目的是CogView3的性能表现。根据人类评价结果,CogView3在生成质量上超越了当前最先进的开源文本到图像模型SDXL,胜率高达77.0%。更令人惊叹的是,它仅用了SDXL约一半的推理时间就达到了这一成就。如果使用CogView3的精简版本,在仅占用SDXL十分之一推理时间的情况下,依然能够保持可比的性能水平。这一突破性进展无疑为高效率、高质量的图像生成开辟了新的可能。

与此同时,智谱AI还推出了CogView-3Plus-3B,这是一个基于DiT(Diffusion Transformers)框架的图像模型。虽然其具体测试结果尚未公布,但业界对其潜力充满期待。CogView-3Plus-3B在CogView3的基础上进行了进一步优化,引入了Zero-SNR扩散噪声调度和联合文本-图像注意力机制等先进技术。这些改进不仅降低了训练和推理成本,还保持了强大的图像生成能力。

值得一提的是,CogView-3Plus-3B支持的图像分辨率范围十分广泛,从512x512到2048x2048不等,这极大地增加了其应用场景的灵活性。无论是日常使用还是专业创作,都能找到适合的分辨率选项。

为了帮助用户更好地利用这些模型,智谱AI还提供了实用的建议和工具。他们建议用户通过大型语言模型(LLM)来优化提示词,这可以显著提升生成图像的质量。同时,智谱AI还提供了示例脚本,大大降低了用户的使用门槛。

项目地址:https://github.com/THUDM/CogView3