Best AI Websites & Tools

AI产品榜

AI产品榜

M2UGen

多模态音乐理解和生成系统

普通产品音乐音乐生成音乐理解

M2UGen是一个结合大语言模型的多模态音乐理解和生成框架,旨在帮助用户进行音乐创作。它能同时完成音乐理解和多模态音乐生成任务。

M2UGen

文本到音乐生成
图像到音乐生成
视频到音乐生成
音乐理解
音乐编辑

音乐创作、音乐理解研究、音乐应用开发

用户可以通过文本描述生成所需的音乐
用户可以上传图像
生成匹配图像风格的音乐
用户可以上传视频
生成匹配视频氛围的音乐背景音乐

M2UGen 替代品

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

生产力•大语言模型•多模态

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

中文精选•大语言模型•多模态

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

编程•多模态•大语言模型

InternVL2-8B-MPO — 多模态大语言模型，提升多模态推理能力

生产力•多模态•大语言模型

UniMuMo — 统一文本、音乐和动作生成模型

音乐•机器学习•多模态

MA-LMM — 面向长期视频理解的大规模多模态模型

视频•视频理解•多模态

mPLUG-DocOwl — 文档理解的模块化多模态大语言模型

生产力•文档理解•多模态

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

图像•多模态•基准测试

MoBA — MoBA 是一种用于长文本上下文的混合块注意力机制，旨在提升大语言模型的效率。

生产力•大语言模型•注意力机制

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

生产力•多模态•机器人

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

国外精选•推理•多模态

CLaMP 3 — CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。

音乐•音乐信息检索•多模态

InspireMusic — 基于 PyTorch 的音乐、歌曲和音频生成工具包，支持高质量音频生成

音乐•音乐生成•音频处理

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

视频•视频理解•检索增强

MedRAX — MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

其他•医疗•胸部X光

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

中文精选•多模态•图像识别

Gemini 2.0 Family — Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型，包含 Flash、Flash-Lite 和 Pro 版本。

国外精选•生成式 AI•编程

Gemini 2.0 Pro — Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型，专注于复杂任务处理和编程性能。

国外精选•编程•复杂任务

OmniHuman-1

OmniHuman-1 — OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

视频•视频生成•多模态

MILS — LLMs 无需任何培训就能看见和听见

图像•多模态•图像描述

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

图像•多模态•图像生成

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

图像•多模态•图像生成

YuE-s1-7B-anneal-en-cot — YuE是一个开源的音乐生成模型，能够将歌词转化为完整的歌曲。

音乐•音乐生成•深度学习

YuE

YuE — YuE 是一个专注于全曲生成的开源音乐基础模型，能够根据歌词生成完整的音乐作品。

音乐•音乐生成•多语言支持

AI音乐生成器 — 利用尖端AI技术，快速生成任何流派的原创音乐。

音乐•AI音乐创作•原创音乐

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

其他•基准测试•多模态

CUA — CUA 是一种能够通过图形界面与数字世界交互的通用接口。

全球热门•多模态•自动化

Baichuan-M1-14B — 百川智能开发的专为医疗场景优化的开源大语言模型，具备卓越的通用能力和医疗领域性能。

生产力•大语言模型•医疗

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

图像•多模态•图像处理