バイトダンス、動画生成モデル「豆包」を発表　10秒動画生成と複数シーンの一貫性を実現

火山引擎科技有限公司は、2024年のAIイノベーション巡回展で、大規模言語モデルファミリーの新たなメンバーである「豆包・動画生成モデル」を発表しました。

火山引擎社長の譚待氏は、「豆包・動画生成モデル」は、正確な意味理解、複数のアクターと主体のインタラクション、強力なダイナミックエフェクト、そして一貫性のあるマルチショット生成能力など、動画生成において多くの先進的な性能を備えていると述べています。

微信截图_20240924152238.png

このモデルは、複雑な指示を理解し従うことができ、複数の主体間のインタラクションを実現し、動画の主体の大規模なダイナミックとショット間でクールな切り替えを行うことができます。さらに、マルチショットの切り替えにおいて一貫性を維持し、10秒以内で完全なストーリーを語る能力を持ち、白黒、3Dアニメーション、水墨画など、様々なスタイルとアスペクト比をサポートしています。

また、白黒、3Dアニメーション、2Dアニメーション、水墨画など、様々なスタイルをサポートし、1:1、3:4、4:3、16:9、9:16、21:9など、様々なアスペクト比に対応することで、異なる端末や画面サイズに適応します。

「豆包・動画生成モデル」は、動画画質の高忠実度を向上させるだけでなく、主体の大きな動きとショット間でクールな切り替えを行い、ズーム、環状、パン、ズームイン/アウト、被写体追尾など、豊富なショット表現能力を備えています。

豆包動画生成大規模モデルは、主に2つのバージョンで構成されています:Doubao-動画生成PixelDanceとDoubao-動画生成-Seaweed 。

火山引擎にアクセスすると、PixelDanceとSeaweedの2つのDoubao-動画生成バージョンが公開されていることが分かります。

一、Doubao-動画生成PixelDance

PixelDance V1.4は、ByteDance Researchチームが開発したDiT構造の動画生成大規模モデルであり、テキストから動画生成と画像から動画生成の両方をサポートし、最大10秒の長さの素晴らしい動画クリップを一度に生成できます。

このモデルは、ユーザーがテキストや画像を入力して動画を生成することをサポートしており、優れた意味理解能力を備えており、高品質な動画クリップを迅速に生成できます。映画制作、広告メディアなど、多くのシーンで活用できます。

PixelDanceバージョンの生成例:

正確な意味理解

PixelDance V1.4は複雑なプロンプトに従うことができ、時系列的なマルチショットアクション指示と複数の主体間のインタラクション能力を解き放ちます。

プロンプト:男が画面に入ってくる。女が振り返って彼を見る。二人は抱き合う。背景では周りの人々が歩いている。

強力なダイナミックとクールなカメラワーク

非常に多くのカメラワークをサポートし、視点の制御を柔軟に行い、現実世界の体験をもたらします。

一貫性のあるマルチショット生成

ストーリー性のあるマルチショット短編をワンクリックで生成する能力を備えており、マルチショットの切り替えにおける一貫性の技術的な課題を克服しました。10秒で起承転結のストーリーを語る事ができます。1つのプロンプト内で複数のショットの切り替えを実現し、同時に主体、スタイル、雰囲気の一貫性を維持します。

マルチスタイル、マルチアスペクト比対応

高度に最適化されたTransformer構造により、動画生成の汎化能力が大幅に向上し、白黒、3Dアニメーション、2Dアニメーション、水墨画、水彩、パステル画など、様々なスタイルをサポートし、1:1、3:4、4:3、16:9、9:16、21:9の6つのアスペクト比に対応しています。

二、Doubao-動画生成-Seaweed

このモデルは、テキストから動画生成と画像から動画生成の2種類の動画生成方式をサポートしています。この技術はTransformer構造に基づいており、時空間圧縮された潜在空間を使用してトレーニングされています。モデルは、マルチ解像度生成をネイティブでサポートし、横画面と縦画面に対応しており、ユーザーが入力した高解像度の画像解像度に合わせて適応および忠実度を維持できます。デフォルトの出力は720p解像度、24fps、5秒の長さですが、20～30秒に動的に延長できます。

Seaweedバージョンの生成例:

非常にリアルで、細部まで豊かなディテール

プロンプト：パンダが熱々の鍋料理を味わっている。

プロフェッショナルな色彩と陰影

ダイナミックでスムーズな動き

「豆包・動画生成モデル」の登場は、eコマースマーケティング、アニメーション教育、都市観光、マイクロシナリオ（ミュージックビデオ、ショートフィルム、短編ドラマなど）など、多くの分野にイノベーションと効率の向上をもたらすと予想されます。火山引擎は、このモデルの発表がAIGCアプリケーションのイノベーションを全面的に加速させると述べています。

火山引擎は、モデル能力のアップグレードとイテレーションを継続的に推進し、より多くの場面でのモデル能力の応用を探求し、企業のクラウド上でのインテリジェント化を実現するための原動力となることを約束しています。

データによると、9月現在、「豆包」大規模モデルの1日あたりのトークン使用量は1.3兆を超え、4ヶ月間でトークンの総増加量は10倍以上になっています。マルチモーダル面では、「豆包・テキストから画像生成モデル」は1日あたり5000万枚の画像を生成しており、さらに「豆包」は現在、1日あたり85万時間の音声処理を行っています。