Stable Diffusion 等模型的出现标志着图像生成领域取得了重大进展,但其与自回归语言模型的根本区别,阻碍了统一的语言视觉模型的开发。为解决这一问题,研究人员推出了 Meissonic,它将非自回归掩码图像建模 (MIM) 文本到图像技术提升到了与 SDXL 等最先进的扩散模型相媲美的水平。Meissonic 的核心在于一系列架构创新、先进的位置编码策略以及优化的采样条件,这些改进显著提高了 MIM 的性能和效率。此外,Meissonic 还利用了高质量的训练数据,集成了基于人类偏好分数的微条件,并采用
Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型,旨在满足不同用户的需求,包括研究人员、企业客户和爱好者。其中,Stable Diffusion3.5Large 是整个系列中最强大的模型,参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力,成为专业用户的理想选择,能够生成分辨率达到1兆像素的高质量图像。此外,Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时,极大地提升了速度,仅
近日,研究团队发布了名为 HelloMeme 的框架,可以超还原的将画面中一个人的表情迁移到另外一个画面中人物的表情上图片上。如下图,给出一个表情图片(第一行),就可将表情细节迁移到其它图片人物形象上面。HelloMeme 的核心在于其独特的网络结构。该框架能够从驾驶视频中提取每一帧的特征,并将这些特征输入 HMControlModule。通过这样的处理,研究人员可以生成流畅的视频画面。然而,在初步生成的视频中,帧与帧之间存在闪烁的问题,影响了整体观看体验。为了解决这一问题,团队
阿里巴巴通义实验室最新研究表明,现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力,只需稍加“点拨”就能“融会贯通”,生成高质量的多图集。传统的 Diffusion 模型更像是一个“死记硬背”的学生,需要用海量数据训练,才能生成高质量的图像。而有了 IC-LoRA 加持,它就变成了“触类旁通”的学霸,只需要少量样本就能学会新技能。这背后的原理说起来也不复杂,研究人员发现,现有的文生图 Diffusion 模型其实已经具备一定的“上下文学习”能力,只