Best AI Websites & Tools
zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
M2UGen
多模态音乐理解和生成系统
普通产品
音乐
音乐生成
音乐理解
打开网站
M2UGen是一个结合大语言模型的多模态音乐理解和生成框架,旨在帮助用户进行音乐创作。它能同时完成音乐理解和多模态音乐生成任务。
网站截图
产品特色
需求人群
使用示例
使用教程
打开网站
文本到音乐生成
图像到音乐生成
视频到音乐生成
音乐理解
音乐编辑
音乐创作、音乐理解研究、音乐应用开发
用户可以通过文本描述生成所需的音乐
用户可以上传图像
生成匹配图像风格的音乐
用户可以上传视频
生成匹配视频氛围的音乐背景音乐
打开网站
M2UGen 替代品
VITA-1.5
— VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
编程
•
多模态
•
大语言模型
174
InternVL2-8B-MPO
— 多模态大语言模型,提升多模态推理能力
生产力
•
多模态
•
大语言模型
36
UniMuMo
— 统一文本、音乐和动作生成模型
音乐
•
机器学习
•
多模态
192
MA-LMM
— 面向长期视频理解的大规模多模态模型
视频
•
视频理解
•
多模态
690
mPLUG-DocOwl
— 文档理解的模块化多模态大语言模型
生产力
•
文档理解
•
多模态
246
OmAgent.com
— 一个用于智能设备等的多模态原生代理框架。
生产力
•
多模态
•
智能设备
36
InternVL2_5-78B-MPO
— 这是一个先进的多模态大型语言模型系列,展示了卓越的整体性能。
生产力
•
多模态
•
大型语言模型
54
MinMo
— MinMo是一款多模态大型语言模型,用于无缝语音交互。
聊天
•
语音交互
•
多模态
54
MiniCPM-o-2_6
— MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
其他
•
多模态
•
语言模型
168
MiniCPM-o
— MiniCPM-o 2.6:一款GPT-4o级别,可在手机上实现视觉、语音和多模态直播的MLLM。
其他
•
多模态
•
语言模型
138
Albus AI
— 全能AI工作空间,实时语音助手搭配多模态画布,助力高效创作与思考。
生产力
•
实时语音
•
多模态
24
Moondream AI
— 开源的视觉语言模型,可在多种设备上运行。
其他
•
开源
•
多模态
78
InternVL2_5-38B-MPO
— InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
聊天
•
多模态
•
大型语言模型
114
InternVL2_5-26B-MPO-AWQ
— 先进的多模态大型语言模型,具备卓越的多模态推理能力。
编程
•
多模态
•
大型语言模型
54
CreatiLayout
— 基于孪生多模态扩散变换器的创意布局到图像生成技术
图像
•
图像生成
•
多模态
258
FlexRAG
— 一个用于信息检索和生成的灵活高性能框架
编程
•
信息检索
•
生成模型
54
InternVL2_5-26B-MPO
— 多模态大型语言模型,提升视觉与语言的交互能力。
图像
•
多模态
•
大型语言模型
108
InternVL2_5-8B-MPO-AWQ
— 多模态大型语言模型,提升视觉与语言的交互能力
图像
•
多模态
•
大型语言模型
78
InternVL2_5-8B-MPO
— 多模态大型语言模型,展示卓越的整体性能。
图像
•
多模态
•
大型语言模型
120
DiffSensei
— 定制化漫画生成模型,连接多模态LLMs和扩散模型。
图像
•
漫画生成
•
多模态
738
InternVL2_5-4B-MPO-AWQ
— 多模态大型语言模型,优化图像与文本交互能力
图像
•
多模态
•
大型语言模型
60
OpenEMMA
— 开源的端到端自动驾驶多模态模型
生产力
•
自动驾驶
•
端到端模型
84
InternVL2_5-4B-MPO
— 多模态大型语言模型,展示卓越的整体性能
图像
•
多模态
•
大型语言模型
72
API.box
— 轻松集成先进AI接口,赋能项目。
中文精选
•
AI接口
•
集成
726
Valley 2.0
— 多模态大型语言模型,提升文本、图像和视频数据处理能力。
其他
•
多模态
•
大型语言模型
204
Valley-Eagle-7B
— 多模态大型模型,处理文本、图像和视频数据
生产力
•
多模态
•
大型模型
132
Valley
— 多模态大型模型,处理文本、图像和视频数据
图像
•
多模态
•
大型模型
126
DiTCtrl
— 探索多模态扩散变换器中的注意力控制,实现无需调优的多提示长视频生成
视频
•
视频生成
•
多模态
48
FlagAI
— 一站式大模型算法、模型及优化工具开源项目
编程
•
大模型
•
开源项目
78