2024年8月21日に開催された火山引擎AIイノベーション巡回展上海会場で、火山引擎はDoubao大規模言語モデルの全面的なアップグレードと、対話型AIリアルタイムインタラクションソリューションの強化を発表しました。

Doubao大規模言語モデルは5月15日の発表以来、1日あたりのトークン使用量が5000億を超え、企業顧客の使用量は22倍に増加しました。新型Doubao大規模言語モデルの総合能力は20.3%向上し、そのうちロールプレイング能力は38.3%、言語理解能力は33.3%向上しました。

バイトダンス抖音Doubao大規模言語モデル

その中でも、Doubaoテキストツーイメージモデルは、長文テキストに対してより正確な画像とテキストの一致を実現し、複数主体、複数位置、手の構造など複雑なシーンでの画像生成能力が向上し、中国特有の要素をより理解し、より美しい中国風の画像を作成できます。Doubao音声認識モデルは、大規模言語モデルの豊富な知識と推論能力に基づき、コンテキスト認識を通じて音声認識の精度を向上させ、複数の公開テストセットにおいて、国内で公開されている音声認識大規模言語モデルと比較して、エラー率を最大40%削減しました。また、標準中国語と広東語、上海語、四川語、西安語、福建語などの方言を1つのモデルで認識できます。Doubao音声合成モデルはストリーミング音声合成能力をアップグレードし、リアルタイムでの応答、正確な区切りが可能になり、「考えながら話す」機能に対応しました。

さらに、火山引擎は対話型AIリアルタイムインタラクションソリューションを発表しました。このソリューションはDoubao大規模言語モデルとリアルタイム音ビデオ(RTC)技術を統合し、エンドツーエンドの大規模言語モデルリアルタイム対話ソリューションを提供します。企業は自社のAIアプリケーションにこのリアルタイム音声機能を簡単に組み込むことができ、ユーザーは音声でAIと会話するだけでなく、普段話すように、会話中に適宜中断したり割り込んだりできます。アップグレードされたAI音声は表現力と感情表現が向上し、会話はより自然で、リアルで、スムーズになり、大規模言語モデルのインタラクション体験が向上します。

火山引擎はまた、多点DMALLと共同で小売大規模言語モデルエコシステムアライアンスを設立することを発表し、小売業界のインテリジェント化アップグレードを推進し、業界のイノベーションを加速することを目指しています。最初の18のメンバー企業が設立式に参加しました。また、自動車大規模言語モデルエコシステムアライアンスにも新たなメンバーが加わり、火山引擎はアライアンスメンバーとAI自動車業界の定義、評価基準の発表などで協力しています。