UniMuMo

统一文本、音乐和动作生成模型

普通产品音乐机器学习多模态

UniMuMo是一个多模态模型，能够将任意文本、音乐和动作数据作为输入条件，生成跨所有三种模态的输出。该模型通过将音乐、动作和文本转换为基于令牌的表示，通过统一的编码器-解码器转换器架构桥接这些模态。它通过微调现有的单模态预训练模型，显著降低了计算需求。UniMuMo在音乐、动作和文本模态的所有单向生成基准测试中都取得了有竞争力的结果。

Best AI Websites & Tools

UniMuMo

UniMuMo 最新流量情况

UniMuMo 访问量趋势

UniMuMo 访问地理位置分布

UniMuMo 流量来源

UniMuMo 替代品

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

InternVL 2.5 — 开源多模态大型语言模型系列

Amazon Nova — Amazon Nova是亚马逊新一代的基础模型，提供前沿智能和行业领先的性价比。

DataChain — 现代Python数据框库，专为人工智能设计。

UniMuMo — 统一文本、音乐和动作生成模型

西湖大模型 — 情商智商俱佳的多模态大模型

SEED-Story — 多模态长篇故事生成模型

OpenCompass Multi-modal Leaderboard — 实时更新的多模态模型性能排行榜

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

GO-1 — 智元发布首个通用具身基座大模型GO-1，开创性提出ViLLA架构，推动具身智能发展。

OpenAI Agents SDK — OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

Mochii AI — Mochii AI 是一款由尖端模型支持的个性化人工智能生态系统，助力人类与 AI 协作的未来。

TheoremExplainAgent — TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

The Ultra-Scale Playbook — 一个专注于超大规模系统设计和优化的工具，提供高效解决方案。

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

OmniHuman-1 — OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

MILS — LLMs 无需任何培训就能看见和听见

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

Albus AI — 全能AI工作空间，实时语音助手搭配多模态画布，助力高效创作与思考。