zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-10 11:48:08
.
AIbase
.
11.0k
阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper
阿里巴巴近期发布了全新开源语音模型Qwen2-Audio,这款模型在语音识别、翻译和音频分析方面表现出色,实现了显著性能提升。Qwen2-Audio提供基础版和指令微调版,支持多种语言,如中文、粤语、法语、英语和日语,为情感分析和翻译应用提供了便利。相较于Qwen-Audio,Qwen2-Audio在架构和性能上进行了全面优化,预训练阶段采用更自然的语言提示,提升理解和泛化能力。指令跟随能力增强,能更准确理解用户指令。模型引入语音聊天和音频分析模式,输出符合人类期望。在性能测试中,Qwen2-Audio超越OpenAI的Whisper-large-v3,在语音识别和翻译准确性上表现出强劲竞争力。
2024-07-17 14:54:02
.
AIbase
.
10.3k
Qwen2-Audio:千问系列的音频多模态模型 无需文字即可语音交互
阿里云推出“Qwen-Audio”,一款大型音频语言模型,革新语音交互体验。型号能接收多种音频输入,执行音频分析并直接响应语音指令。用户提供独特的音交互模式,无需文字输入,直接通过语音交流,并在音频中提供声音和文本分析。具备智能理解能力,能够结合多音源指令并解析,如区分单一声音、多声道对话及命令,并协助音频解释和响应。性能超越先前优秀模型,特别是在基于音频的指令跟踪功能与聊天模式上。具备开源特性,促进多模态语言发展。产品将分为Qwen2-Audio和Qwen-Audio-Chat,进一步优化多种音频操作体验。在无需特定任务调整的前提下,模型展示了卓越性能。特别在英文自动语音识别(ASR)与聊天任务上表现出色。强调跨声音、音乐和混合音频集的强大指令跟踪功能,显著优于其他大型语言模型(LALM)与Qwen-Audio。