字节推文生图框架InfiniteYou ：可保持人脸特征，场景随便换

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年3月21号 15:13

670

字节跳动悄悄咪咪推出了一款名为 InfiniteYou （InfU）， 的图像生成神器。简单的说，这是一款文本到图像的生成模型，它的厉害之处在于，能够根据你输入的文字描述，生成带有你个人身份特征的高质量图像。

这可不是简单的换脸App能比的，它更注重的是在灵活变换场景和内容的同时，精准保留你的身份特征。想象一下，你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片，而且保证那张脸还是你自己的，是不是很酷?

“InfiniteYou”之所以能做到这一点，背后可有着一套“组合拳”。

核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer （DiT） 的先进图像生成模型（比如 FLUX）中。InfuseNet就像一位技艺高超的化妆师，通过“残差连接”这种精细的操作，在增强人脸相似度的同时，还不破坏原有的生成能力。
多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就，而是经历了预训练和使用合成的单人多样本（SPMS）数据进行监督微调(SFT)等多重考验。这种精细化的训练策略，能够显著提升文本和图像的对齐度，让生成的图像更符合你的文字描述，同时还能提高图像质量和美观度，并有效缓解“换脸”后常见的面部复制粘贴问题。
模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2 和 sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型，默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度，那么可以选择 sim_stage1。这就像买手机，一个注重拍照效果，一个注重性能，总有一款适合你。

通过对比实验可以看出，“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面，都超越了现有的先进方法，比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像，要么文字描述和图像内容不符，要么就是图像质量堪忧，甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下，“InfiniteYou”的表现更加全面和出色。

更令人惊喜的是，“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体（比如更高效的 FLUX.1-schnell）、ControlNets 和 LoRAs 等现有工具无缝集成，提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合，实现个性化图像的风格迁移。这种强大的兼容性，无疑将为更广泛的社区做出有价值的贡献。

需要注意的是，“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的，仅供学术研究使用。下载和使用相关的模型（如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等）必须遵守其原始许可。同时，开发者也希望用户能够遵守当地法律法规，负责任地使用这项技术，避免任何潜在的滥用行为。

项目入口：https://top.aibase.com/tool/infiniteyou

Midjourney新研究发力创意文本生成，让LLM写作更具创意

以AI图像生成技术闻名遐迩的Midjourney，正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司，在自研计算和AI硬件的消息之后，近期携手纽约大学（NYU）的机器学习专家，发布了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。该研究聚焦于提升LLM在创意写作方面的能力，旨在使AI模型能够像Meta的Llama和Mistral等开源模型一样，写出更具创造性的文本。不止于图像:Midjourney发力创意文本生成对于一家以扩散模型AI图像生成技术著称的公司而言，Midjourney此次在文

新一代AI图像生成模型Reve Image震撼登场，引领创作新潮流

一款名为Reve Image的全新AI图像生成模型正式亮相，迅速引发科技与设计圈的广泛关注。据悉，该模型由Reve团队从零开始打造，专注于提升美学表现、精准的提示遵循能力以及出色的排版设计，旨在为用户提供高质量的视觉创作体验。Reve Image的推出被视为AI图像生成领域的一大突破。有业内人士表示，这款模型在生成图像时展现出强烈的设计感，产出的作品简洁大气，颇具海报风格的视觉冲击力。与此同时，其对用户输入的提示词理解能力尤为突出，能够细致还原创作者的意图，甚至对简单

谷歌Gemini 2.0 Flash引发争议：AI轻松去除图片水印引发版权担忧

一场关于AI边界的新争议正在科技圈掀起波澜。谷歌最新推出的人工智能模型Gemini2.0Flash被发现具有令人担忧的能力——它可以轻松去除图片水印，包括来自盖蒂图片社等知名图库的专业水印，这一功能引发了创作者和版权持有者的广泛关注。上周，谷歌扩大了Gemini2.0Flash模型图像生成功能的访问范围，使更多用户能够体验其强大的图像生成和编辑能力。然而，这一决定似乎缺乏必要的限制措施。网友们很快发现，Gemini2.0Flash不仅能生成包含名人和受版权保护角色的图像，更令人震惊的是，

谷歌Gemini 2.0 Flash放出原生多模态图像生成功能：支持多轮对话式实时编辑编辑

继Gemma3之后，谷歌又给我们带来了一位“闪电侠”——Gemini2.0Flash，而且人家这次是带着独门绝技来的:原生图像生成! 要知道，以前的AI图像生成，很多时候都是大型语言模型（LLM）先理解你的文字，然后再把意思“翻译”给专门生成图像的扩散模型。这中间难免会有些“失真”，就像隔着好几个人传话，最后意思都变味儿了。但Gemini2.0Flash可不一样，人家是把图像生成功能直接集成在了模型内部! 这就好比你直接跟画家沟通需求，效率和准确度自然是噌噌往上涨! 难怪有先行体验者表示，