阿里图像生成模型Qwen2vl-Flux开源，支持图像融合和风格转移等

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 27, 2024

549

近日，阿里巴巴宣布开源其最新研发的图像生成模型 Qwen2vl-Flux，该模型不仅具备编辑、融合和混合等多种功能，还能够在用户输入图像或文本的情况下，生成具有高度相似性的全新图像。

Qwen2vl-Flux 提供了强大的图像变化功能。用户只需输入一张图像，无需任何文本提示，模型便能根据原图生成多幅相似的图像。例如，用户上传一张人物照片，模型便可以生成多个角度下的人物表现，展现出不同的视角与情感。

模型还支持文本引导图像混合。当用户输入一张图片并附加相关文本提示时，Qwen2vl-Flux 能够将输入图像与文本内容进行巧妙融合，创造出新的图像效果。

除了上述功能，Qwen2vl-Flux 还具备图像引导图像混合的能力。用户可以将两张不同的图像结合在一起，实现角色合体或场景转换。例如，将一个角色与另一个背景相结合，模型能够无缝融合两者，形成新的视觉效果。

模型的网格风格迁移功能使得用户能够对图像进行细致的控制。用户可以对图像的特定部分进行修改，实现精细化创作。比如，在一幅展现高科技与自然环境结合的图像中，用户可以添加生物发光技术的细节，或者森林晨雾的效果，展现出更加丰富的视觉体验。

项目入口:https://huggingface.co/Djrango/Qwen2vl-Flux

划重点:
🌟 Qwen2vl-Flux 开源，具备强大的图像生成和编辑能力。
🖼️ 支持图像变化和文本引导图像混合，创造出全新视觉效果。
🔍 提供图像引导图像混合和网格风格迁移，允许用户进行精细控制。

Qwen2vl-Flux 图像生成模型图像编辑阿里巴巴

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆Moonshot AI最近推出的Kimi-Audio是一款开源音频基础模型，旨在推动音频理解、生成和交互技术的发展。该模型基于Qwen2.5-7B架构，结合Whisper技术，支持多种音频任务，如语音识别和音频问答。凭借超过13亿小时的多样化音频数据训练，Kimi-Audio在多

2025年4月27号 15:39

6.8k

夸克 AI 超级框全新上线 “拍照问夸克” 功能

阿里巴巴旗下的夸克 AI 超级框正式推出了一项名为 “拍照问夸克” 的全新功能。这一功能的亮点在于，它能够通过 AI 相机识别图像中的人物、物体以及其他细节，进而回答用户在现实生活中的各种问题。这项技术基于先进的视觉理解与推理能力，使得用户不再需要用复杂的语言描述需求，只需简单拍照即可。“拍照问夸克” 功能的应用场景非常广泛。当用户面临复杂的物体、图表或图形时，往往难以用言语表达出自己的需求。这时，只需用手机拍照，系统就能够迅速识别出照片中的信

2025年4月27号 13:47

12.2k

夸克AI超级框升级上线“拍照问夸克”功能：啥都能答

4月25日，阿里巴巴旗下的夸克AI超级框宣布推出一项创新功能——“拍照问夸克”。这一新功能基于先进的视觉理解和思考推理模型，能够更精准地理解和回答用户在物理世界中遇到的各类问题。

2025年4月27号 13:44

5.6k

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

2025年4月27日，AIbase报道：由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源，引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性，展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析，涵盖其技术亮点、应用场景及未来影响。创新技术架构Step1X-Edit采用多模态大语言模型（MLLM）与扩散变换器（DiT）的结合，通过处理用户提供的参考图像和编辑指令，生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散

2025年4月27号 8:53

790

颠覆视频创作!阿里巴巴 VACE 模型统一处理文本、图像和视频输入

阿里巴巴集团的科学家们推出了 VACE，这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。VACE 的核心是增强的扩散 Transformer 架构，其创新之处在于“视频条件单元”（VCU）这一新型输入格式。VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示，并通过专门的机制协调不同输入，避免冲突。概念解耦实现精细控制VACE 采用“概念解耦”技术将图像分割为可编辑和固定区域，实现对修改内容和保留内容的精细控制。视觉信息通过遮罩划分为

2025年4月23号 10:22

2.1k

AI日报：阿里通义万相首尾帧生视频模型；豆包开源Seed智能体模型UI-TARS-1.5；OpenAI首发“智能体实践指南”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型，标志着AI视频生成技术的重大进步。该模型支持高清视频生成，并通过用户提供的首尾帧实现流畅的动画过渡，具备多种功能如文本到视频、视频编辑等。开源特性降低了技术

2025年4月18号 15:23

10.7k

Midjourney图像编辑器重磅更新，新图层功能、智能选择工具

Midjourney宣布对其图像编辑器进行重大更新，引入了焕然一新的用户界面（UI）、图层功能、智能选择工具以及更智能的审核系统。这一更新不仅优化了用户体验，还显著提升了AI图像编辑的灵活性与精准度，进一步巩固了Midjourney在AI艺术生成领域的领先地位。焕新UI:更直观的操作体验Midjourney图像编辑器此次更新的一大亮点是全新设计的用户界面。社交媒体上的反馈显示，新UI更加简洁直观，整合了编辑、调整和预览功能，让用户能够更高效地完成创作。无论是通过Midjourney平台上的Lightbox编

2025年4月18号 14:24

27.4k

阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源

阿里巴巴旗下的通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。这一模型以其支持高清视频生成和灵活的首尾帧控制功能引发业界热议，为AI驱动的视频创作提供了全新可能。Wan2.1-FLF2V-14B:首尾帧驱动的视频生成新标杆Wan2.1-FLF2V-14B是阿里通义万相系列的最新力作，基于数据驱动训练和**DiT（Diffusion Transformer）**架构，专为首尾帧视频生成设计。据社交媒体平台上的讨论，该模型只需用户提供两张图片作为首帧和尾帧，即可生成一段长约5秒、720p分辨率的

2025年4月18号 10:52

3.1k

Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

全球领先的AI图像生成平台Midjourney于2025年4月17日宣布，其图像编辑器迎来了一次重要更新。此次更新不仅优化了用户体验，还引入了多项创新功能，进一步巩固了Midjourney在AI创意工具领域的领先地位。以下是AIbase为您整理的最新资讯，带您深入了解这一激动人心的升级。焕然一新的用户界面（UI）Midjourney此次更新对图像编辑器的用户界面进行了全面优化。新的UI设计更加直观、流畅，旨在提升用户的操作效率与创作体验。无论是专业设计师还是新手用户，都能通过简洁的界面快速上手，轻

2025年4月18号 8:57

2.4k

阿里巴巴开源Wan2.1-FLF2V-14B，首尾帧生成720p高清视频新突破

阿里巴巴近日宣布，其最新首尾帧生成视频模型Wan2.1-FLF2V-14B正式开源，支持生成5秒720p高清视频。这一模型以其创新的首尾帧控制技术引发广泛关注，为AI视频生成领域带来全新可能性。据AIbase了解，该模型已于2025年2月在GitHub和Hugging Face平台上线，供全球开发者、研究者和商业机构免费使用，标志着阿里巴巴在开源AI生态建设中的又一重要里程碑。核心功能:首尾帧驱动，生成流畅高清视频Wan2.1-FLF2V-14B以首帧和尾帧作为控制条件，仅需用户提供两张图像，模型即可自动生成一段5秒、720p分辨

2025年4月18号 8:46

2.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

阿里图像生成模型Qwen2vl-Flux开源，支持图像融合和风格转移等

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；​夸克AI超级框上线 “拍照问夸克”

​夸克 AI 超级框全新上线 “拍照问夸克” 功能

夸克AI超级框升级 上线“拍照问夸克”功能：啥都能答

Step1X-Edit：开源图像编辑新标杆 媲美GPT-4o等闭源模型