Best AI Websites & Tools

AI产品榜

AI产品榜

Make-An-Audio 2

基于扩散模型的文本到音频生成技术

普通产品其他文本到音频扩散模型

Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术，由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型语言模型(LLMs)解析文本，优化了语义对齐和时间一致性，提高了生成音频的质量。它还设计了基于前馈Transformer的扩散去噪器，以改善变长音频生成的性能，并增强时间信息的提取。此外，通过使用LLMs将大量音频标签数据转换为音频文本数据集，解决了时间数据稀缺的问题。

Make-An-Audio 2

使用预训练的大型语言模型(LLMs)解析文本，优化时间信息捕获
引入结构化文本编码器，辅助学习扩散去噪过程中的语义对齐
设计基于前馈Transformer的扩散去噪器，改善变长音频生成性能
利用LLMs增强和转换音频标签数据，缓解时间数据稀缺问题
在客观和主观指标上超越基线模型，显著提升时间信息理解、语义一致性和声音质量

该技术的目标受众是音频合成领域的研究人员和开发者，以及需要高质量文本到音频转换的应用场景，如自动配音、有声读物制作等。Make-An-Audio 2通过其先进的技术，能够生成与文本内容语义对齐且时间一致的高质量音频，满足这些用户的需求。

自动生成有声读物的背景音效和对话
为视频内容自动添加旁白和音效
创建虚拟角色的声音，用于游戏或动画

步骤1: 准备自然语言文本作为输入
步骤2: 使用Make-An-Audio 2的Text Encoder解析文本
步骤3: 结构化文本编码器辅助学习语义对齐
步骤4: 利用扩散去噪器生成音频
步骤5: 调整生成音频的长度和时间控制

Make-An-Audio 2 替代品

MakeAnything — MakeAnything 是一个用于多领域程序化序列生成的扩散变换器模型。

设计•生成式 AI•多领域生成

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

编程•自动化定理证明•数学

Pippo — Pippo 是一个从单张照片生成高分辨率多人视角视频的生成模型。

图像•图像生成•多视角视频

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。

图像•屏幕解析•图像识别

On-device Sora — On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。

视频•视频生成•移动设备

DiffSplat — DiffSplat 是一个从文本提示和单视图图像生成 3D 高斯点云的生成框架。

图像•3D 生成•高斯点云

Go with the Flow — 一种用于控制视频扩散模型运动模式的高效方法，支持运动模式的自定义和迁移。

视频•视频生成•运动控制

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

生产力•大型语言模型•多语言

TokenVerse — TokenVerse 是一种基于预训练文本到图像扩散模型的多概念个性化方法。

图像•图像生成•个性化

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

编程•大型语言模型•强化学习

X-Dyna — X-Dyna是一种基于扩散模型的零样本人类图像动画生成技术。

图像•图像动画•零样本学习

Hunyuan3D 2.0 — Hunyuan3D 2.0 是腾讯推出的高分辨率 3D 资产生成系统，基于大规模扩散模型。

中文精选•3D•纹理生成

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

生产力•多模态•大型语言模型

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

编程•大型语言模型•自适应

InternLM3-8B-Instruct — InternLM3-8B-Instruct是一个开源的80亿参数指令模型，用于通用用途和高级推理。

编程•大型语言模型•开源

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

聊天•语音交互•多模态

Dria-Agent-a-3B — 基于Qwen2.5-Coder系列的大型语言模型，专注于代理应用。

编程•大型语言模型•代理应用

Dria-Agent-a-7B — 一个基于Qwen2.5-Coder系列训练的大型语言模型，专注于代理应用。

编程•大型语言模型•编程辅助

Dria-Agent-α — Dria-Agent-α是基于Python的大型语言模型工具交互框架。

编程•大型语言模型•Python

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF — 基于特定模型的量化大型语言模型，适用于自然语言处理等任务。

编程•大型语言模型•量化模型

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

聊天•多模态•大型语言模型

Agent Laboratory — Agent Laboratory是一个端到端的自主研究工作流，旨在协助人类研究人员实施研究想法。

生产力•研究辅助•文献综述

Diffusion as Shader

Diffusion as Shader — 一种支持多种视频生成控制任务的统一架构模型。

视频•视频生成•3D感知

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

编程•多模态•大型语言模型

AnyParser Pro — AnyParser Pro 是一款能够快速准确地从 PDF、PPT 和图像中提取内容的大型语言模型。

生产力•文档解析•大型语言模型

CreatiLayout — 基于孪生多模态扩散变换器的创意布局到图像生成技术

图像•图像生成•多模态

Sonus-1 — Sonus-1：开启大型语言模型（LLMs）的新时代

生产力•大型语言模型•自然语言处理

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

图像•多模态•大型语言模型

VMix

VMix — 文本到图像扩散模型的美学质量提升工具

图像•文本到图像•扩散模型