ActAnywhere

ActAnywhereは、主体認識ビデオ背景生成モデルです。

一般製品ビデオビデオ処理ビデオ生成

ActAnywhereは、前景の主体動作や外観と一致するビデオ背景を自動生成するモデルです。このタスクは、前景の主体動作や外観と一致するだけでなく、アーティストの意図にも沿った背景を合成することを含みます。ActAnywhereは大規模ビデオ拡散モデルを活用し、このタスク向けに特化して開発されました。ActAnywhereは、前景の主体セグメンテーションのシーケンスを入力として、必要なシーンを記述する画像を条件として、条件フレームと整合性のある連続ビデオを生成し、現実的な前景と背景の相互作用を実現します。このモデルは大規模な人とコンピューターのインタラクションビデオデータセットでトレーニングされています。多くの評価により、このモデルは基準モデルよりも明らかに優れた性能を示し、人間以外の主体を含む様々な分布サンプルに対して汎化できることが示されています。

入力された前景の主体セグメンテーションシーケンスに基づき、条件画像に一致するビデオ背景を生成する
生成された背景は、前景の主体動作や外観と調和する
主体を含む合成フレーム、または背景のみのフレームを条件画像として使用可能
様々なカメラモーションを持つビデオ背景を生成可能

ActAnywhereは、人物やその他の主体を含むビデオに対して、対応する背景を自動的に生成することで、手作業による調整の労力を削減し、ビデオ制作効率を向上させるために使用できます。

人物の動きを含むビデオセグメンテーションシーケンスと海辺の写真を使用して、海辺を走る人物の合成ビデオを生成する
ダンスの動きを含むビデオセグメンテーションと古代の宮殿の写真を使用して、宮殿でダンスを行う効果を生成する
車が走行するビデオセグメンテーションと高層ビルの写真を使用して、街中を車が走行する効果を生成する

Best AI Websites & Tools

ActAnywhere

ActAnywhere 代替品

ActAnywhere — ActAnywhereは、主体認識ビデオ背景生成モデルです。

Wan.video — Wan_AI Creative Drawingは、人工知能技術を利用してクリエイティブな絵画とビデオ制作を行うプラットフォームです。

hunyuan-video-keyframe-control-lora — これはHunyuanVideoモデルに基づくアダプターであり、キーフレームベースのビデオ生成に使用されます。

CineMaster — CineMasterは、3D空間認識機能を備えた、テキストからビデオを生成する制御可能なフレームワークです。ユーザーは3D空間内でオブジェクトやカメラを操作できます。

Magic 1-For-1 — Magic 1-For-1は、1分間のビデオを1分で生成できる、効率的な画像からビデオへの生成モデルです。

Lumina-Video — Lumina-Videoは、テキストからビデオを生成する試作プロジェクトです。

エイジェンティック物体検出 — 推論駆動型の物体検出技術。テキストプロンプトを用いて、人間並みの精度で検出を実現します。

BEN2 — BEN2は、深層学習に基づく画像セグメンテーションモデルであり、背景消去と前景抽出に特化しています。

Deeptrain — 言語モデルとAIエージェントにビデオ処理サービスを提供し、様々なビデオソースに対応しています。

Go with the Flow — ビデオ拡散モデルのモーションモードを効率的に制御するための手法。モーションモードのカスタマイズと転移をサポートします。

Story Flicks — AI大規模言語モデルを使用して、高画質のストーリーショートビデオをワンクリックで生成します。複数の言語モデルと画像生成技術に対応しています。

AIビデオスタートキット — ブラウザ上でAIビデオ生成モデルをデモするためのオープンソースプロジェクトです。

GameFactory — GameFactoryは、事前学習済みのビデオ拡散モデルに基づく汎用的なワールドモデルであり、オープンワールドゲームを作成できます。

Luma Ray2 — リアルな視覚効果と自然で滑らかな動きを生成できる、大規模なビデオ生成モデルです。

シェーダとしての拡散 (Diffusion as Shader) — 様々なビデオ生成制御タスクに対応する統一アーキテクチャモデルです。

StereoCrafter — 単眼ビデオを没入型立体3Dビデオに変換するフレームワーク

VidTok — マイクロソフトがオープンソースで公開した、先進的なビデオ分割器群

DisPose — 人物画像アニメーションを制御するための手法

如意模型 (Ruyi-Models) — 映画レベルの高画質ビデオを生成可能な画像からビデオへの変換モデル

INFP — 音声駆動型のインタラクティブなヘッド生成フレームワーク。二人間の会話用に設計されています。

Veo 2 — Google DeepMind開発の最先端ビデオ生成モデル

WePOINTS — WePOINTSプロジェクトは、多様なモダリティに対応するモデルのための統一フレームワークを提供します。

CausVid — 高速因果ビデオジェネレーター。リアルタイムでのビデオ生成を実現します。

Graphix — AI駆動のペイントと写真編集アプリ

Sora Explore — OpenAIのSoraが創造した驚異的なAIビデオを探索しましょう

MMAudio — MMAudioは、ビデオおよび/またはテキスト入力から同期音声ファイルを生成します。

VISION XL — 高解像度ビデオ逆問題ソルバー。潜在拡散モデルを使用。

混元视频 (HunyuanVideo) — テンセントがオープンソース化した大規模ビデオ生成モデルのトレーニングフレームワーク

躍問ビデオ — ひらめきとビデオ制作のためのプラットフォーム

LTX-Video — DiTベースのビデオ生成モデル。高画質ビデオをリアルタイムで生成します。