Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月17号 14:54

955

阿里云最新发布了一名为 Qwen-Audio 的大规模音频语言型，该模型可接受多种音频信号输入，够进行音频分析或直接回答语音指令极大地提升了语音交互体验。

产品入口:https://top.aibase.com/tool/qwen2-audio

在此次发布中，Qwen2udio 提供了两种独特的音交互模式:音聊天和音频分析。用户无需输入文字即与 Qwen2-Audio 进行语音交，同时还可以交互中提供音频和文本令进行分析为用户带来更便捷的体验。

Qwen2-Audio能够智能地理解音频中的内容，并按照语音命令做出适当的响应。例如，在同时包含声音、多扬声器对话和语音命令的音频段中，Qwen2-Audio 可以直接理解该命令并提供对音频的解释和响应。

此外，DPO 还优化了模型在事实性和对期望行为的遵守方面的性能。根据AIR-Bench的评估结果，Qwen2-Audio在专注于以音频为中心的指令跟踪功能的测试中，优于以前的SOTA，如Gemini-1.5-pro。Qwen2-Audio是开源的，旨在促进多模态语言社区的进步。

据了解，Qwen2-Audio 系列将推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat，为用户提供更丰富的音频互体验。

研究人员将对 Qwen2-Audio 模型进行全面评估，评估其在各种任务中的性能，而无需进行任何特定于任务的微调。英语自动语音识别（ASR）结果方面，其中Qwen2-Audio与以前的多任务学习模型相比表现出更高的性能。

Qwen2-Audio的聊天能力方面，研究人员在AIR-Bench的聊天基准上测量了其性能（Yang et al.，2024），Qwen2-Audio 展示了跨语音、声音音乐和混合音频子集的最先进的 (SOTA) 指令跟踪功能。与 Qwen-Audio 相比，它显示出实质性的改进，并且显着优于其他 LALM。

划重点:
🌟 阿里云发布 Qwen2-Audio，一款革新性的大规模频语言模型，提升了语音交互体验;
Qwen2-Audio 可接受多种音频信号输入进行音频分析或直接回答语音指令，大地拓展了语音交互功能;
🌟 通过三段训练过程，Qwen2-Audio 的模型结构训练方法和性能表现得到了全面展示为用户带来更加优质的音频交互体验。

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

Qwen2-Audio：千问系列的音频多模态模型 无需文字即可语音交互

AIbase

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必