バイトダンス、豆包・画像生成AIモデルを発表　豆包大規模言語モデルの1日あたりのトークン使用量が5000億を超える

AIbase基地

公開日AIニュース · 1 分で読めます · Jul 26, 2024

890

7月25日、火山引擎は成都で2024 AIイノベーション巡回展を開催しました。火山引擎は、自社の大規模言語モデル「豆包」の1日あたりのトークン使用量が5000億を超え、5月15日のモデル公開以来、企業顧客1社あたりの1日あたりのトークン使用量が22倍に増加したと発表しました。火山引擎の副社長である張鑫氏は、火山引擎がよりインテリジェント化、業界特化、地域特化の方向に進んでいること、そして業界ソリューション、製品、最適化されたサービスを通じて企業のビジネスイノベーションを支援していると述べました。

バイトダンス抖音豆包大規模言語モデル

会議では、火山引擎は豆包大規模言語モデルの最新機能を発表しました。これには、ビジュアルイメージ、音声合成、音声複製などのアップグレードが含まれます。豆包・画像生成モデルと豆包・テキスト生成画像モデルは、元の画像の特徴を維持し、画質を向上させる点で優れた性能を示しました。豆包・音声合成モデルと豆包・音声複製モデルは、感情表現と話し手の声の特徴の再現において向上しました。

豆包・画像生成モデル：人物の輪郭、表情、空間構造などの多次元の特徴を高度に保持できるだけでなく、50種類以上の異なるスタイルをサポートし、画像の拡張、部分的な再描画、塗りつぶしなどの機能により、画像の創造的な拡張を可能にします。現在、抖音、剪映、豆包、星绘などのアプリケーションに適用されており、サムスン、努比亚などの企業にもサービスを提供しており、携帯電話のアルバム、ツールアシスタント、eコマースマーケティング、広告配信など、複数の分野を網羅しています。
豆包・テキスト生成画像モデル：多数の主体、主客体関係、人物構造、空間構造などの情報を深く理解し、画像とテキストの一致度が向上しました。光と影、雰囲気の色、人物の美しさの3つの面から画質を向上させることに優れており、中国特有のコンテンツを最適化し、中国の人物、物品、王朝、地理、食べ物、祭りなどを細かく理解できます。
豆包・音声合成モデル：ストーリーの筋書きと登場人物を深く理解し、感情を正しく表現できます。音声の詰まりやアクセントなどの発音の癖を維持し、リアルな音質を実現し、より自然な発声を可能にします。26種類の高品質で超自然的な音質により、様々なシーンのニーズに対応できます。
豆包・音声複製モデル：わずか5秒で高忠実度の音質を複製でき、話し手の声の特徴とアクセントを高度に再現し、6つの主要言語間での移行をサポートし、発音は現地の人の発音により近くなります。

同時に、火山方舟は、コアプラグインとインテリジェントエージェント機能、およびライフサイクル全体にわたるデータの安全と信頼性のソリューションを提供し、企業が簡単に大規模言語モデルを実装できるように支援します。TikTok（抖音）と同じ3つの主要プラグインがアップグレードされ、新しいWebページ解析プラグインと電卓プラグインが追加され、企業の多様なアプリケーションニーズに対応します。火山引擎は「扣子」プロフェッショナル版を提供し、ローコードで企業のビジネスシナリオに合わせた専門的な「AIボット」を構築できます。

火山引擎は、企業がAIアプリケーションをスムーズに導入するための、HiAgent企業専用AIアプリケーションイノベーションプラットフォームも開発しました。HiAgentは、速度、密度、厚さの3つの次元から、企業のAIアプリケーションの迅速な導入と継続的な最適化を包括的に支援します。火山引擎のAIフルスタッククラウドは、バイトダンスの膨大なリソースを共有し、マルチチップ、マルチクラウドアーキテクチャをサポートし、超大規模な計算能力を提供し、数万枚のGPUによるクラスタネットワーク、数兆パラメータのMoE大規模言語モデルをサポートします。

火山引擎豆包大規模言語モデル音声合成画像生成AIモデル

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

華晨宝马とバイトダンス火山引擎が提携、AIによる自動車マーケティング推進

先日、華晨宝马領悦デジタル情報技術有限公司（領悦）とバイトダンス傘下の火山引擎が提携を発表しました。両社は人工知能（AI）技術を活用し、革新的な自動車マーケティングサービスを提供します。今回の提携により、AI技術を用いた正確な製品マッチングと購入アドバイス、コンテンツ誘導の最適化を実現し、ユーザーの購入体験とディーラーの運営効率を向上させます。BMWグループ大中華区プレジデントの高翔氏は、AIがBMWがよりスマートで心温まるモビリティソリューションを生み出すための鍵であり、研究開発、生産、サプライチェーン、製品、サービス、運営のあらゆる分野への統合を加速させていると述べています。

Apr 18, 2025

130

火山引擎、豆包1.5深度思考モデルを発表：ビジュアル理解とインテリジェントなプロジェクト管理を統合

先日開催された火山引擎FORCE LINK AIイノベーション巡回展で、火山引擎社長の譚待氏は、豆包1.5深度思考モデルを発表しました。これは、この革新的なテクノロジーが正式に企業向けにサービス提供されることを意味します。豆包1.5は、基本機能のアップグレードに加え、よりインテリジェントなアプリケーションシナリオが導入され、企業のより効率的なデジタルトランスフォーメーションを支援します。譚待氏は発表会で、豆包1.5深度思考モデルはビジュアル理解と組み合わせることで、より多くの革新的な機能を提供できると述べました。例えば、このモデルはユーザーがアップロードした写真に基づいて…

Apr 17, 2025

推論能力飛躍？Doubao 1.5 深層思考モデルが企業向けに正式サービス開始

火山引擎は本日、イベントの事前告知を行い、新型Doubao大規模言語モデルを明日（4月17日）FORCE LINK AIイノベーション巡回展杭州会場で正式発表することを発表しました。公式情報によると、今回の発表会ではDoubao大規模言語モデルファミリーの新たなアップグレードが発表され、特に注目を集めているDoubao 1.5深層思考モデルが公開されます。以前から、Doubaoアプリとデスクトップ版で深層思考モードに関する複数回の試験的なテストが行われていたことが伝えられています。今回の発表後、このモデルは企業顧客向けに正式にサービス提供されます。Doubaoは…

Apr 16, 2025

AIバーチャルアバターの画期的進展：話すデジタル分身がヒューマンコンピュータインタラクションの未来を書き換える

近年、生成AI技術が画期的な進歩を遂げ、バーチャルアバター（AI Avatars）は、生き生きとした外見を持つだけでなく、自然で流暢に話すことができるようになりました。この技術は、最先端の音声合成と表情生成能力を融合し、驚異的な速度でデジタルと現実世界の境界を打破し、AIを舞台裏のツールから人間と直接対話する舞台の中心に押し上げています。これらのAIバーチャルアバターの登場は、生成AI技術の融合が重要な一歩を踏み出したことを示しています。高度にリアルな顔のアニメーションと自然な音声合成をシームレスに組み合わせることで、

Apr 9, 2025

バイトダンス、Hugging FaceでMegaTTS3を発表：軽量化音声合成の新突破

北京——バイトダンス（ByteDance）は最近、人工知能のオープンソースコミュニティHugging Faceで、最新のテキスト読み上げ（TTS）モデルMegaTTS3を正式に発表しました。この発表は、軽量化設計と多言語サポートにおける画期的なパフォーマンスにより、世界中のAI研究者や開発者の注目を集めています。テクノロジーコミュニティからのフィードバックと公式情報によると、MegaTTS3は音声合成分野における重要な進歩として称賛されています。MegaTTS3の主なハイライトMegaTT

Apr 3, 2025

160

Sesame、CSMモデルを発表：リアルタイム感情カスタマイズAI音声合成が新たな高みに

3月13日、Sesame社は最新のテキスト音声変換モデルCSMを発表し、業界の注目を集めています。公式発表によると、CSMはエンドツーエンドのTransformerベースのマルチモーダル学習アーキテクチャを採用し、コンテキスト情報を理解して、自然で感情豊かな音声、まるで人間の声のような驚くほどリアルな音声を生成します。このモデルはリアルタイム音声生成に対応し、テキストと音声の両方の入力を処理できます。ユーザーはパラメーターを調整することで、トーン、イントネーション、リズム、感情などの特性を制御でき、高い柔軟性を発揮します。CSMはAI音声技術の...

Mar 14, 2025

120

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

Mar 10, 2025

雷軍、7日間のAIに関する発言に国民の反響、AI顔交換・音声合成技術の法整備を求める声

中国の起業家、雷軍氏の国慶節期間中のAIに関する発言が大きな議論を呼んでいます。AIによる顔交換や音声合成技術の悪用を防ぐため、関連法の整備を求める声が上がっています。

Mar 9, 2025

テキスト読み上げシステムSpark-TTS：ゼロショット音声クローンと詳細な制御に対応

Mar 6, 2025

370

Dubformer、360万ドルの資金調達を実施　感情伝達技術によるAI音声合成に革命

Mar 5, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

バイトダンス、豆包・画像生成AIモデルを発表 豆包大規模言語モデルの1日あたりのトークン使用量が5000億を超える