MinMo
MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。
一般製品チャット音声インタラクションマルチモーダル
MinMoは、阿里巴巴グループの通義实验室が開発した、約80億パラメータを持つマルチモーダル大規模言語モデルです。シームレスな音声インタラクションの実現に特化しており、音声テキストアライメント、テキスト音声アライメント、音声音声アライメント、全二重インタラクションアライメントを含む複数段階のトレーニングを経て、140万時間におよぶ多様な音声データと幅広い音声タスクでトレーニングされています。MinMoは音声理解と生成における様々なベンチマークテストで最先端の性能を達成しており、同時にテキストの大規模言語モデルの能力も維持し、全二重対話(ユーザーとシステム間の同時双方向通信)をサポートしています。さらに、MinMoは、音声生成において従来のモデルを凌駕する、新規かつシンプルな音声デコーダを提案しています。MinMoの指示遵守能力は強化されており、ユーザーの指示に従って、感情、方言、話速などの詳細を含む音声生成を制御し、特定の音声を模倣することができます。MinMoの音声テキスト変換の遅延は約100ミリ秒、全二重遅延は理論上約600ミリ秒、実際は約800ミリ秒です。MinMoの開発は、従来のマルチモーダルモデルのアライメントにおける主な制約を克服し、ユーザーにより自然でスムーズ、人間味のある音声インタラクション体験を提供することを目的としています。
MinMo 最新のトラフィック状況
月間総訪問数
63960
直帰率
57.97%
平均ページ/訪問
1.4
平均訪問時間
00:00:54