阿里巴巴クラウドは、大規模音声言語モデル「Qwen-Audio」を新たに発表しました。このモデルは様々な音声信号を入力として受け入れ、音声分析を実行したり、音声指示に直接応答したりすることで、音声インタラクション体験を大幅に向上させます。
製品入口:https://top.aibase.com/tool/qwen2-audio
今回の発表で、Qwen-Audioは音声チャットと音声分析という2つのユニークな音声インタラクションモードを提供します。ユーザーはテキストを入力することなくQwen-Audioと音声でやり取りでき、インタラクション中に音声とテキストの指示を提供して分析を行うことで、より便利な体験を提供します。
Qwen-Audioは音声の内容をスマートに理解し、音声指示に従って適切な応答を行います。例えば、音声、複数話者の会話、音声指示が同時に含まれる音声セグメントにおいて、Qwen-Audioは指示を直接理解し、音声の解釈と応答を提供できます。
さらに、DPOは事実性と期待される行動への遵守に関するモデルの性能を最適化しました。AIR-Benchによる評価結果によると、Qwen-Audioは、音声中心の指示追跡機能に焦点を当てたテストにおいて、Gemini-1.5-proなどの従来の最先端技術(SOTA)を上回りました。Qwen-Audioはオープンソースであり、マルチモーダル言語コミュニティの発展を促進することを目的としています。
なお、Qwen-AudioシリーズはQwen2-AudioとQwen-Audio-Chatの2つのモデルを発売し、ユーザーにより豊かな音声インタラクション体験を提供します。
研究者らは、Qwen-Audioモデルを包括的に評価し、タスク固有の微調整を行うことなく、様々なタスクにおける性能を評価します。英語自動音声認識(ASR)の結果では、Qwen-Audioは以前の多タスク学習モデルと比較して高い性能を示しました。
Qwen-Audioのチャット能力に関しては、研究者らはAIR-Benchのチャットベンチマーク(Yang et al.、2024)で性能を測定しました。Qwen-Audioは、音声、音、音楽、および混合音声サブセット全体で最先端の(SOTA)指示追跡機能を示しました。Qwen-Audioと比較して、大幅な改善を示しており、他のLALMを大幅に上回っています。
要点:
🌟 阿里巴巴クラウドが革新的な大規模音声言語モデルQwen2-Audioを発表、音声インタラクション体験を向上;
Qwen2-Audioは様々な音声信号を入力として受け入れ、音声分析を実行したり、音声指示に直接応答したりすることで、音声インタラクション機能を大幅に拡張;
🌟 3段階のトレーニングプロセスにより、Qwen2-Audioのモデル構造、トレーニング方法、性能が包括的に示され、ユーザーにより質の高い音声インタラクション体験を提供。