媲美GPT-4o！复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jul 25, 2024

726

在人工智能的世界里，大型语言模型（LLM）已经成为推动自然语言处理(NLP)任务的关键力量。然而，要让这些模型真正理解并生成跨模态内容，如语音和文本，我们还有很长的路要走。复旦大学的研究团队在论文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一种创新的解决方案——SpeechGPT。

SpeechGPT是一种新型的大型语言模型，它不仅能够理解语音和文本，还能够在这两者之间自如转换。这项技术的核心在于将连续的语音信号离散化，使其能够与文本模态统一，从而让模型具备感知和生成语音的能力。

简单来说就是它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语，SpeechGPT都能够根据需要生成相应风格的语音，这得益于其超过10万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。

为了训练SpeechGPT，研究团队采用了一个三阶段的训练策略:

模态适应预训练:在这个阶段，模型通过大量未标记的语音数据进行训练，以预测下一个离散单元，从而适应语音模态。
跨模态指令微调:利用SpeechInstruct数据集，该数据集包含多种任务的指令，模型在这个阶段学习如何理解和执行跨模态的指令。
模态链指令微调:在这个阶段，模型进一步微调，以优化模态间的转换能力。

为了支持SpeechGPT的训练，研究团队构建了首个大规模跨模态语音指令数据集SpeechInstruct。这个数据集包含跨模态指令数据和模态链指令数据，覆盖了多种任务类型。

实验结果显示，SpeechGPT在文本任务、跨模态任务和口语对话任务上都展现出了强大的能力。它能够准确理解和执行各种指令，无论是将语音转录为文本，还是将文本转换为语音，或是进行口语对话。

值得注意的是，尽管SpeechGPT展现了卓越的能力，它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。这些挑战主要是由于计算和数据资源的限制。目前，SpeechGPT仍在开发中，团队计划未来开源技术报告、代码和模型权重，以便更广泛的研究社区可以参与到这项技术的进一步发展和完善中。

项目页地址：https://top.aibase.com/tool/speechgpt2

大型语言模型跨模态 SpeechGPT 自然语言处理

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

月之暗面公司正式发布了其最新力作——Kimi K2模型，并同步宣布开源。这款基于MoE架构的基础模型，凭借其强大的代码能力、卓越的通用Agent任务处理能力，一经发布便在AI领域引起了广泛关注。 Kimi K2模型总参数高达1T，激活参数为32B，在SWE Bench Verified、Tau2、AceBench等一系列基准性能测试中，均取得了开源模型中的顶尖成绩，充分展现了其在代码编写、Agent任务执行以及数学推理等方面的领先实力。

2025年7月12号 9:53

340

腾讯混元Hunyuan-A13B模型API上线

近日，腾讯云官网正式上线了腾讯混元A13B模型的API服务，输入价格定为每百万Tokens0.5元，输出价格则为每百万Tokens2元，这一举措迅速在开发者社区中引发了热烈反响。作为业界首个13B级别的MoE（混合专家）开源混合推理模型，Hunyuan-A13B以其总参数80B、激活参数仅13B的精简设计，实现了与同等架构领先开源模型相媲美的效果，同时在推理速度上更胜一筹，性价比显著提升。这一创新不仅降低了开发者获取先进模型能力的门槛，更为AI应用的广泛普及奠定了坚实基础。

2025年7月11号 16:12

1.0k

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

【AI日报速览】1.智谱推出免费AI Slides，基于GLM模型快速生成专业PPT；2.可灵AI发布可图2.1，图像生成支持180种风格；3.NVIDIA推出DiffusionRenderer，实现视频转3D场景编辑；4.墨刀AI上线30秒生成可编辑原型功能；5.Higgsfield Soul ID用10张照片生成虚拟形象；6.谷歌开源GenAI Processors构建AI工作流；7.谷歌Veo3新增图转视频功能；8.Mistral AI发布专注代码生成的Devstral2507系列模型。

2025年7月11号 15:43

900

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

Mistral AI推出Devstral2507系列两款AI模型：开源的Devstral Small1.1（240亿参数，SWE-Bench得分53.6%）和企业版Devstral Medium2507（得分61.6%）。Small1.1支持128k上下文窗口和本地部署，Medium2507性能超越部分商业模型。两者均针对代码推理、程序合成优化，支持与代理框架集成，分别适用于本地开发和企业级应用，提供从实验到生产的完整解决方案。

2025年7月11号 15:27

1.2k

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

微软发布革命性BioEmu模型，将蛋白质动态模拟时间从数年缩短至数小时。该模型基于AlphaFold2改进，采用序列编码器和扩散生成技术，能生成多样化蛋白质构象。通过200毫秒分子动力学数据训练，显著提升模拟精度。这一突破将极大加速药物研发和生物医学研究，已在《自然》期刊发表。

2025年7月11号 10:50

950

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

NVIDIA推出DiffusionRenderer技术突破视频生成瓶颈，实现3D场景的可控编辑。该技术采用双神经渲染器架构：逆渲染器提取场景几何材质数据，前向渲染器结合光照生成逼真视频。通过15万合成视频和1万真实视频数据集训练，模型在光影效果和材质还原上表现优异。支持动态光照调整、材质修改和对象插入等操作，大幅提升创作自由度。这项技术标志着AI视频生成从单纯创作迈向可编辑的新阶段。

2025年7月11号 9:28

1.3k

城商行掀起大模型招标潮，百万级投入成行业新风口！

中小银行加速布局大模型技术，超10家城商行近期启动相关项目招标，投资规模普遍在200-600万元之间。这些银行主要聚焦应用层开发，旨在优化服务流程、提升运营效率。典型案例显示，广西北部湾银行等项目报价达数百万元。相比国有大行动辄上亿的投入，城商行更注重性价比和实际应用效果。业内报告指出，银行业大模型应用正从试点走向多场景落地，推动行业智能化转型。

2025年7月11号 9:18

560

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

埃隆·马斯克旗下xAI的Grok4模型陷入争议，测试显示该AI在回答敏感话题时优先引用马斯克本人观点，与其"追求真相"承诺相矛盾。虽然Grok4在技术测试中表现优异，但近期接连出现反犹言论等严重失误，加上明显的政治倾向性，给其商业推广蒙上阴影。目前xAI尚未公布模型训练细节，缺乏透明度加剧外界质疑。这些问题可能影响其300美元/月的订阅服务和API商业计划。

2025年7月11号 9:01

840

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI推出新一代图像生成模型"可图2.1"，在指令理解、人像美感和电影质感等方面全面提升。新模型具备强大文字生成能力，支持180多种风格，7月17日前会员可免费体验。该模型能精准呈现复杂场景，如3D沙盘、海底火山爆发等宏大场面，在人像光影处理上尤为出色。可灵AI已发展为多模态创意平台，用户累计生成3.44亿张图片和1.68亿个视频，展现强大技术实力和市场影响力。

2025年7月11号 8:58

1.6k

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

可灵AI推出可图2.1模型，在指令理解、人像美化、电影质感及180多种风格响应能力上全面升级，同时优化了文字生成效果。新模型将向所有会员免费开放7天，支持文生图、单图参考和多图参考等功能。

2025年7月10号 17:57

1.2k

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

媲美GPT-4o！复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

腾讯混元Hunyuan-A13B模型API上线

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

城商行掀起大模型招标潮，百万级投入成行业新风口！

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

媲美GPT-4o！复旦推语音模型SpeechGPT2 能听懂你的喜怒哀乐

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

月之暗面Kimi K2 模型发布并开源 擅长代码与 Agentic 任务

腾讯混元Hunyuan-A13B模型API上线

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

微软 BioEmu 模型实现蛋白质模拟时间大幅缩短

​NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景

城商行掀起大模型招标潮，百万级投入成行业新风口！

AI 大模型的人格化：Grok 4 与马斯克的“共情”？

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI上线可图2.1模型，将面向所有会员用户免费开放7天

月之暗面Kimi K2 模型发布并开源擅长代码与 Agentic 任务

NVIDIA 推出 DiffusionRenderer：全新 AI 模型实现视频到可编辑的逼真 3D 场景