字节跳动悄悄咪咪推出了一款名为 InfiniteYou (InfU), 的图像生成神器。简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像

QQ_1742541024681.png

这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。想象一下,你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片,而且保证那张脸还是你自己的,是不是很酷?

InfiniteYou”之所以能做到这一点,背后可有着一套“组合拳”。

  • 核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer (DiT) 的先进图像生成模型(比如 FLUX)中。InfuseNet就像一位技艺高超的化妆师,通过“残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。
  • 多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就,而是经历了预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT)等多重考验。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能提高图像质量和美观度,并有效缓解“换脸”后常见的面部复制粘贴问题
  • 模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型,默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度,那么可以选择 sim_stage1。这就像买手机,一个注重拍照效果,一个注重性能,总有一款适合你。

通过对比实验可以看出,“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面,都超越了现有的先进方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像,要么文字描述和图像内容不符,要么就是图像质量堪忧,甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下,“InfiniteYou”的表现更加全面和出色。

更令人惊喜的是,“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等现有工具无缝集成,提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合,实现个性化图像的风格迁移。这种强大的兼容性,无疑将为更广泛的社区做出有价值的贡献。

需要注意的是,“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的,仅供学术研究使用。下载和使用相关的模型(如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为

项目入口:https://top.aibase.com/tool/infiniteyou