この度、豆包(Doubao)社は、リアルタイム音声大規模言語モデルの最新版を発表しました。中国語での会話において「断崖式」の進歩を遂げたと謳い、AIの対話能力が大幅に向上したことを示しています。このモデルは、豆包アプリ(バージョン7.2.0 新春版)で全面的に公開され、より豊かでリアルな音声交流体験を提供します。

発表によると、豆包のリアルタイム音声大規模言語モデルは、音声理解と生成を深く融合させたエンドツーエンドの音声対話システムを実現しています。この技術的ブレークスルーにより、音声表現力、制御力、感情の受け継ぎにおいて優れた性能を発揮し、低遅延と会話の随時中断機能を備え、ユーザーのインタラクション体験を大幅に向上させています。「知性」だけでなく「情動」も向上し、感情をより適切に理解し表現できるとしています。

image.png

今回のアップデートには、リアルタイム音声通話機能も含まれています。この機能は豆包社の最新の大規模言語モデルに基づいており、様々な状況下で会話のリズム、赤ちゃん言葉、音量、息遣いなどの細部を柔軟に調整できます。さらに、様々な声質の模倣、複数の方言や英語での会話、さらには一部楽曲の歌唱も可能です。これらにより、人間と機械の会話のリアルさが新たなレベルに引き上げられ、「人間と機械の区別がつかない」レベルに達しています。

豆包社の開発チームによると、この新しい技術はエンドツーエンドのフレームワークに基づいており、音声とテキストをネイティブの方法で深く融合させた統一的なモデル化を行っています。この設計により、音声認識と生成のプロセスが最適化されるだけでなく、AIにさらに豊かな「魂」が与えられ、人間とのコミュニケーション能力が向上しています。

豆包社のリアルタイム音声大規模言語モデルは、中国語音声対話分野において、ユーザーに前例のないインタラクション体験を提供し、スマート音声技術の発展を推進するでしょう。