科大訊飛は先日、最新開発の訊飛星火マルチモーダルインタラクション大規模言語モデルの正式運用開始を発表しました。この技術的ブレークスルーは、科大訊飛が単一の音声インタラクション技術から、音声・ビデオストリームリアルタイムマルチモーダルインタラクションの新段階へと進展したことを示しています。新モデルは音声、視覚、デジタルヒューマンインタラクション機能を統合しており、ユーザーはワンクリックでこれらをシームレスに連携させることができます。
訊飛星火マルチモーダルインタラクション大規模言語モデルの発表により、超人間的なデジタルヒューマン技術が初めて導入されました。この技術により、デジタルヒューマンの体幹と四肢の動きを音声コンテンツと正確に一致させることができ、表情や動作を迅速に生成し、AIの生動性とリアル感を大幅に向上させます。テキスト、音声、表情を統合することで、新モデルはクロスモーダルの意味の一貫性を達成し、より自然でつながりのある感情表現を実現します。
さらに、訊飛星火は超人間的な高速インタラクション技術をサポートしており、統一ニューラルネットワークを使用して音声から音声へのエンドツーエンドモデリングを直接実現することで、応答速度がより速く、よりスムーズになります。この技術は感情の変化を鋭敏に感知し、指示に従って音声のリズム、大きさ、キャラクターを自由に調整し、よりパーソナライズされたインタラクション体験を提供します。
マルチモーダル視覚インタラクションにおいて、訊飛星火は「世界を理解し」「万物を認識する」ことができ、具体的な背景シーンや物流状況などの情報を包括的に感知することで、タスクの理解をより正確にします。音声、ジェスチャー、行動、感情など複数の情報を総合的に処理することで、適切な応答を行い、ユーザーにより豊かで正確なインタラクション体験を提供します。
マルチモーダルインタラクション大規模言語モデルSDK:https://www.xfyun.cn/solutions/Multimodel