7月25日、火山引擎は成都で2024 AIイノベーション巡回展を開催しました。火山引擎は、自社の大規模言語モデル「豆包」の1日あたりのトークン使用量が5000億を超え、5月15日のモデル公開以来、企業顧客1社あたりの1日あたりのトークン使用量が22倍に増加したと発表しました。火山引擎の副社長である張鑫氏は、火山引擎がよりインテリジェント化、業界特化、地域特化の方向に進んでいること、そして業界ソリューション、製品、最適化されたサービスを通じて企業のビジネスイノベーションを支援していると述べました。

バイトダンス抖音豆包大規模言語モデル

会議では、火山引擎は豆包大規模言語モデルの最新機能を発表しました。これには、ビジュアルイメージ、音声合成、音声複製などのアップグレードが含まれます。豆包・画像生成モデルと豆包・テキスト生成画像モデルは、元の画像の特徴を維持し、画質を向上させる点で優れた性能を示しました。豆包・音声合成モデルと豆包・音声複製モデルは、感情表現と話し手の声の特徴の再現において向上しました。

  1. 豆包・画像生成モデル:人物の輪郭、表情、空間構造などの多次元の特徴を高度に保持できるだけでなく、50種類以上の異なるスタイルをサポートし、画像の拡張、部分的な再描画、塗りつぶしなどの機能により、画像の創造的な拡張を可能にします。現在、抖音、剪映、豆包、星绘などのアプリケーションに適用されており、サムスン、努比亚などの企業にもサービスを提供しており、携帯電話のアルバム、ツールアシスタント、eコマースマーケティング、広告配信など、複数の分野を網羅しています。

  2. 豆包・テキスト生成画像モデル:多数の主体、主客体関係、人物構造、空間構造などの情報を深く理解し、画像とテキストの一致度が向上しました。光と影、雰囲気の色、人物の美しさの3つの面から画質を向上させることに優れており、中国特有のコンテンツを最適化し、中国の人物、物品、王朝、地理、食べ物、祭りなどを細かく理解できます。

  3. 豆包・音声合成モデル:ストーリーの筋書きと登場人物を深く理解し、感情を正しく表現できます。音声の詰まりやアクセントなどの発音の癖を維持し、リアルな音質を実現し、より自然な発声を可能にします。26種類の高品質で超自然的な音質により、様々なシーンのニーズに対応できます。

  4. 豆包・音声複製モデル:わずか5秒で高忠実度の音質を複製でき、話し手の声の特徴とアクセントを高度に再現し、6つの主要言語間での移行をサポートし、発音は現地の人の発音により近くなります。

同時に、火山方舟は、コアプラグインとインテリジェントエージェント機能、およびライフサイクル全体にわたるデータの安全と信頼性のソリューションを提供し、企業が簡単に大規模言語モデルを実装できるように支援します。TikTok(抖音)と同じ3つの主要プラグインがアップグレードされ、新しいWebページ解析プラグインと電卓プラグインが追加され、企業の多様なアプリケーションニーズに対応します。火山引擎は「扣子」プロフェッショナル版を提供し、ローコードで企業のビジネスシナリオに合わせた専門的な「AIボット」を構築できます。

火山引擎は、企業がAIアプリケーションをスムーズに導入するための、HiAgent企業専用AIアプリケーションイノベーションプラットフォームも開発しました。HiAgentは、速度、密度、厚さの3つの次元から、企業のAIアプリケーションの迅速な導入と継続的な最適化を包括的に支援します。火山引擎のAIフルスタッククラウドは、バイトダンスの膨大なリソースを共有し、マルチチップ、マルチクラウドアーキテクチャをサポートし、超大規模な計算能力を提供し、数万枚のGPUによるクラスタネットワーク、数兆パラメータのMoE大規模言語モデルをサポートします。