VideoVAEPlus

高忠実度ビデオエンコーディング。大規模な動きのシーンにも対応するビデオ自己符号化器です。

一般製品ビデオビデオエンコーディング変分オートエンコーダー

これは、ビデオ冗長性を削減し、効率的なビデオ生成を促進することを目的としたビデオ変分オートエンコーダー（VAE）です。本モデルでは、画像VAEを直接3D VAEに拡張するとモーションブラーとディテール歪みが発生することを観察し、空間情報のエンコードとデコードを向上させるため、時間認識空間圧縮を提案しています。さらに、軽量なモーション圧縮モデルを統合し、時間圧縮をさらに実現しています。テキストからビデオのデータセットに固有のテキスト情報を活用し、モデルにテキストガイダンスを追加することで、特にディテール保持と時間安定性に関して、再構成品質が大幅に向上しました。また、画像とビデオで共同トレーニングを行うことで汎用性を高め、再構成品質の向上だけでなく、画像とビデオの自己符号化も可能にしました。広範な評価により、本手法が最新の強力なベースラインよりも優れた性能を示すことが明らかになりました。

Best AI Websites & Tools

VideoVAEPlus

VideoVAEPlus 代替品

VideoVAEPlus — 高忠実度ビデオエンコーディング。大規模な動きのシーンにも対応するビデオ自己符号化器です。

Magic 1-For-1 — Magic 1-For-1は、1分間のビデオを1分で生成できる、効率的な画像からビデオへの生成モデルです。

STAR — STARは、実世界のビデオ超解像度のための時空間エンハンスメントフレームワークであり、強力なテキストからビデオへの拡散事前学習モデルを初めて実世界のビデオ超解像度に取り込みました。

Pyramid Flow miniFLUX — 高効率な自己回帰型ビデオ生成モデル

Allegro — 高度なテキストからビデオへの生成モデル

CogVideoX — テキストからビデオを生成するモデル

LlamaVoice — ラマモデルをベースとした大規模音声生成モデル

Open-Sora Plan v1.2 — テキストからビデオを生成する分野における最先端のモデルアーキテクチャ

VideoTetris — テキストからビデオを生成する革新的なフレームワーク

Mira — 高画質の長尺ビデオ生成を目指す実験的なフレームワーク。シーケンス長の拡張とダイナミクス強化を実現しています。

CameraCtrl — テキスト生成ビデオのカメラ姿勢を精密に制御します

VLOGGER — テキストと音声によって駆動される人体ビデオ生成。人物の入力画像一枚からビデオを生成します。

OpenDiT — OpenDiT：シンプルで高速、効率的なDiTトレーニングと推論システム

Sora AIビデオ — Sora AI開発による、テキストからビデオを生成するモデル

Opus — デジタル時代のスマートラグジュアリー

Lumiere — 時空間拡散モデルによるビデオ生成

MagicVideo-V2 — 多段階の高画質ビデオ生成

InstructVideo — テキストからビデオを生成する、指示生成モデル

ShortVideoGen — テキストから音声付きのショートビデオを生成します