科大訊飛星火マルチモーダルインタラクション大規模言語モデルが運用開始　「音声、視覚、デジタルヒューマンインタラクション」の3点セットを実現

AIbase基地

公開日AIニュース · 1 分で読めます · Nov 15, 2024

410

科大訊飛は先日、最新開発の訊飛星火マルチモーダルインタラクション大規模言語モデルの正式運用開始を発表しました。この技術的ブレークスルーは、科大訊飛が単一の音声インタラクション技術から、音声・ビデオストリームリアルタイムマルチモーダルインタラクションの新段階へと進展したことを示しています。新モデルは音声、視覚、デジタルヒューマンインタラクション機能を統合しており、ユーザーはワンクリックでこれらをシームレスに連携させることができます。

訊飛星火マルチモーダルインタラクション大規模言語モデルの発表により、超人間的なデジタルヒューマン技術が初めて導入されました。この技術により、デジタルヒューマンの体幹と四肢の動きを音声コンテンツと正確に一致させることができ、表情や動作を迅速に生成し、AIの生動性とリアル感を大幅に向上させます。テキスト、音声、表情を統合することで、新モデルはクロスモーダルの意味の一貫性を達成し、より自然でつながりのある感情表現を実現します。

微信截图_20241115083401.png

さらに、訊飛星火は超人間的な高速インタラクション技術をサポートしており、統一ニューラルネットワークを使用して音声から音声へのエンドツーエンドモデリングを直接実現することで、応答速度がより速く、よりスムーズになります。この技術は感情の変化を鋭敏に感知し、指示に従って音声のリズム、大きさ、キャラクターを自由に調整し、よりパーソナライズされたインタラクション体験を提供します。

微信截图_20241115083600.png

マルチモーダル視覚インタラクションにおいて、訊飛星火は「世界を理解し」「万物を認識する」ことができ、具体的な背景シーンや物流状況などの情報を包括的に感知することで、タスクの理解をより正確にします。音声、ジェスチャー、行動、感情など複数の情報を総合的に処理することで、適切な応答を行い、ユーザーにより豊かで正確なインタラクション体験を提供します。

マルチモーダルインタラクション大規模言語モデルSDK：https://www.xfyun.cn/solutions/Multimodel

科大訊飛、星盾科技会社を設立 AI関連事業を展開

天眼查アプリによると、合肥訊飛星盾科技有限公司の事業範囲は非常に広く、ソフトウェア開発、人工知能基礎資源と技術プラットフォーム、人工知能理論とアルゴリズムソフトウェア開発、人工知能応用ソフトウェア開発、ネットワークと情報セキュリティソフトウェア開発、ビッグデータサービスなどを網羅しています。これらの事業分野の展開は、同社の技術革新と情報技術サービスにおける強力な能力を十分に示しています。

科大訊飛星火同伝音声大規模モデル発表：人間のプロ翻訳者レベルに到達

本日、科大訊飛は最新開発の星火同伝音声大規模モデルを発表しました。これは、国内初のエンドツーエンドの音声同時通訳能力を備えた大規模モデルの正式な登場を意味します。この革新的な技術は、訊飛の以前の翻訳技術と比較して、全シーン翻訳の効果を大幅に向上させ、エンドツーエンドの応答時間を大幅に短縮しました。

科大訊飛、1月15日に新たな深層推論モデルX1を発表、スマートオフィスの能力を強化

1月7日に開催されたオフィスインテリジェンス製品アップグレード発表会で、科大訊飛は1月15日に最新の「訊飛星火深層推論モデルX1」を発表すると発表しました。今回の発表は、訊飛のスマートオフィス製品にさらに強力な人工知能能力をもたらし、スマートオフィスの応用範囲をさらに拡大すると予想されます。中国を代表する人工知能企業である科大訊飛は、AI技術とオフィス環境の深層融合に継続的に取り組んでいます。新たに発表されるX1モデルは、インテリジェンス製品の深層推論能力を高め、複雑なタスクの処理を可能にすることを目指しています。

GPT-4oレベル！VITA-1.5：リアルタイムなビジュアルと音声インタラクション、1.5秒のインタラクション遅延

VITA-MLLMチームは最近、VITA-1.0をベースに開発されたアップグレード版であるVITA-1.5を発表しました。マルチモーダルインタラクションのリアルタイム性と正確性の向上を目指しています。VITA-1.5は英語と中国語に対応しているだけでなく、複数の性能指標において顕著な向上を実現し、よりスムーズなインタラクション体験を提供します。VITA-1.5では、インタラクション遅延が大幅に短縮され、従来の4秒からわずか1.5秒に短縮されました。ユーザーは音声インタラクションを行う際に、ほとんど遅延を感じません。

AIニュース

科大訊飛星火マルチモーダルインタラクション大規模言語モデルが運用開始 「音声、視覚、デジタルヒューマンインタラクション」の3点セットを実現

AIbase基地

関連AIニュースの推奨

科大訊飛、星盾科技会社を設立 AI関連事業を展開

科大訊飛星火同伝音声大規模モデル発表：人間のプロ翻訳者レベルに到達

科大訊飛、1月15日に新たな深層推論モデルX1を発表、スマートオフィスの能力を強化

GPT-4oレベル！VITA-1.5：リアルタイムなビジュアルと音声インタラクション、1.5秒のインタラクション遅延

科大訊飛星火マルチモーダルインタラクション大規模言語モデルが運用開始　「音声、視覚、デジタルヒューマンインタラクション」の3点セットを実現