AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-08-10 11:48:08.AIbase

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

阿里巴巴近期发布了全新开源语音模型Qwen2-Audio，这款模型在语音识别、翻译和音频分析方面表现出色，实现了显著性能提升。Qwen2-Audio提供基础版和指令微调版，支持多种语言，如中文、粤语、法语、英语和日语，为情感分析和翻译应用提供了便利。相较于Qwen-Audio，Qwen2-Audio在架构和性能上进行了全面优化，预训练阶段采用更自然的语言提示，提升理解和泛化能力。指令跟随能力增强，能更准确理解用户指令。模型引入语音聊天和音频分析模式，输出符合人类期望。在性能测试中，Qwen2-Audio超越OpenAI的Whisper-large-v3，在语音识别和翻译准确性上表现出强劲竞争力。

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

2024-07-17 14:54:02.AIbase

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

阿里云推出“Qwen-Audio”，一款大型音频语言模型，革新语音交互体验。型号能接收多种音频输入，执行音频分析并直接响应语音指令。用户提供独特的音交互模式，无需文字输入，直接通过语音交流，并在音频中提供声音和文本分析。具备智能理解能力，能够结合多音源指令并解析，如区分单一声音、多声道对话及命令，并协助音频解释和响应。性能超越先前优秀模型，特别是在基于音频的指令跟踪功能与聊天模式上。具备开源特性，促进多模态语言发展。产品将分为Qwen2-Audio和Qwen-Audio-Chat，进一步优化多种音频操作体验。在无需特定任务调整的前提下，模型展示了卓越性能。特别在英文自动语音识别（ASR）与聊天任务上表现出色。强调跨声音、音乐和混合音频集的强大指令跟踪功能，显著优于其他大型语言模型（LALM）与Qwen-Audio。

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互