ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

全能的创造者和编辑器，通过扩散变换遵循指令

普通产品图像视觉生成扩散模型

ACE是一个基于扩散变换的全能创造者和编辑器，它能够通过统一的条件格式Long-context Condition Unit (LCU)输入，实现多种视觉生成任务的联合训练。ACE通过高效的数据收集方法解决了训练数据缺乏的问题，并通过多模态大型语言模型生成准确的文本指令。ACE在视觉生成领域具有显著的性能优势，可以轻松构建响应任何图像创建请求的聊天系统，避免了视觉代理通常采用的繁琐流程。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer 最新流量情况

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer 访问量趋势

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer 访问地理位置分布

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer 流量来源

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer 替代品

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer — 全能的创造者和编辑器，通过扩散变换遵循指令

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

CreatiLayout — 基于孪生多模态扩散变换器的创意布局到图像生成技术

DiffSensei — 定制化漫画生成模型，连接多模态LLMs和扩散模型。

stable-diffusion-3.5-large-turbo — 高效能的文本到图像生成模型

stable-diffusion-3.5-large — 高性能的文本到图像生成模型

AccVideo — 加速视频扩散模型，生成速度提升 8.5 倍。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

InfiniteYou — 实现灵活且高保真度的图像生成，同时保持身份特征。

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

MistralOCR.net — Mistral OCR 是一款强大的文档理解 OCR 产品，能够以极高的准确性从 PDF 和图像中提取文本、图像、表格和方程式。

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

R1-Omni — R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

GO-1 — 智元发布首个通用具身基座大模型GO-1，开创性提出ViLLA架构，推动具身智能发展。

OpenAI Agents SDK — OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

TrajectoryCrafter — 通过扩散模型实现单目视频的相机轨迹重定向。

SmolVLM2 — SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。

Aya Vision — Aya Vision 是 Cohere 推出的多语言多模态视觉模型，旨在提升多语言场景下的视觉和文本理解能力。

Project Starlight — Project Starlight 是一款基于 AI 的视频增强工具，可将低分辨率和损坏的视频提升为高清质量。

EgoLife — EgoLife是一个长期、多模态、多视角的日常生活AI助手项目，旨在推进长期上下文理解研究。

ViDoRAG — ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

Mochii AI — Mochii AI 是一款由尖端模型支持的个性化人工智能生态系统，助力人类与 AI 协作的未来。

Mercury Coder — Mercury Coder 是一款基于扩散模型的高性能代码生成语言模型。

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

TheoremExplainAgent — TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

VideoGrain — VideoGrain 是一种零样本方法，用于实现类别级、实例级和部件级的视频编辑。

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。