AdobeとMITが共同開発したCausVidビデオ生成モデル、最初のフレームの遅延はわずか1.3秒！

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 11, 2024

248

かつて、ビデオ生成モデルが1フレームずつレンダリングされるのを辛抱強く待つ長い時間を覚えていますか？今、低速とはお別れ、高速時代へようこそ！AdobeとMITの強力なタッグによって、「因果」ビデオ生成モデルであるCausVidが登場しました。毎秒9.4フレームの速度で高画質ビデオをリアルタイム生成し、最初のフレームの遅延はわずか1.3秒です！この画期的な技術は、ビデオコンテンツ制作の方法を根本的に変え、ゲーム、仮想現実、ストリーミングなど、あらゆる分野に無限の可能性をもたらします！

従来のビデオ生成モデルは、熟練の職人さながら、ビデオシーケンス全体を綿密に分析して1フレームずつ生成するため、非常に時間がかかりました。ユーザーは数分、場合によっては数時間待つ必要があり、迅速なフィードバックとリアルタイムのインタラクションが必要なアプリケーションにとってはまさに悪夢でした。

一方、CausVidは熟練の達人、まさに「閃光の貴公子」です。全く新しい「因果」生成方式を採用し、既に生成されたフレームを処理するだけで次のフレームを予測します。まるで私たちが話すように、言葉が自然に繋がっていくのです。この方式により計算コストが大幅に削減され、ビデオ生成速度は数十倍に向上しました！

CausVidはこの「閃光の技」をどのように習得したのでしょうか？

秘密兵器は「非対称蒸留」技術です！研究者たちはまず、熟練の職人さながら高画質ビデオを生成できる強力な「双方向」拡散モデルを訓練しました。しかし、速度は遅いです。次に、このモデルの知識を利用して「因果」生成モデルであるCausVidを訓練し、次のフレームを迅速に予測できるようにしました。

CausVidの効率をさらに向上させるため、「ODE初期化」と「KVキャッシュ」などの技術も導入され、トレーニングと推論の両過程でより迅速かつ安定した動作を実現しました。その結果、CausVidは驚くべき生成速度を実現し、ビデオコンテンツ制作をリアルタイムインタラクションの新時代へと導きました！

CausVidは高速であるだけでなく、機能も強力です！テキストからビデオ、画像からビデオ、ビデオからビデオへの変換、動的プロンプトなど、様々なビデオ生成タスクに対応しており、これらすべてのタスクを非常に低い遅延で実行できます！

未来を想像してみてください。CausVidを使ってゲームシーンをリアルタイムで生成したり、音声や動作に合わせてビデオをリアルタイムで編集したりできるようになります。これは、ゲーム、仮想現実、ストリーミングなどの分野に革命的な変化をもたらすでしょう！CausVidの登場は、ビデオ生成分野における大きな飛躍を意味します。それは、私たちがビデオコンテンツを作成および消費する方法を根本的に変え、無限の可能性に満ちた未来を開きます！

プロジェクトアドレス：https://causvid.github.io/

超強力ビデオ生成モデル Wan2.1 GP：低スペックGPUでも大作が作成可能！

DeepBeepMeepチームがGitHub上で、ローエンドGPUユーザー向けに最適化されたビデオ生成モデルWan2.1GPを公開しました。このモデルはアリババのWan2.1をベースにしており、高性能GPUリソースにアクセスできないユーザーに強力なビデオ生成能力を提供することを目指しています。Wan2.1GPの登場は、特にオープンソースの分野において、ビデオ生成技術の重要な進歩を示しています。画像出典：AI生成画像、画像ライセンスプロバイダーMidjourney

Adobe、PhotoshopのiOS版をリリース、豊富な無料機能とシームレスなクロスデバイス体験を提供

最近のXプラットフォーム上の発表によると、AdobeはiOSデバイス向けのPhotoshopアプリケーションを正式にリリースし、ユーザーに多くの無料機能と便利なクロスデバイス操作体験を提供しました。このリリースは、Photoshopがモバイル端末への展開をさらに進め、次世代クリエイターのニーズに応えることを意味します。報道によると、Photoshop iOS版には選択ツール、レイヤー管理、マスク操作など、ソフトウェアの中核となる機能が搭載されており、ユーザーは画像の合成や組み合わせを容易に行うことができます。

Adobe、Firefly AIビデオジェネレーターのパブリックベータ版を発表：テキストと画像を簡単に短編動画に変換

Adobeは最近、最新のFirefly AIビデオジェネレーターがパブリックベータ版に入ったことを発表しました。これにより、ユーザーはテキストと画像を短編動画に変換できるようになります。この革新的な機能はAdobeのCreative Cloudに統合されており、クリエイターは使い慣れたツールで簡単にAIビデオを生成できます。このビデオジェネレーターの最大の特徴は、1080p解像度、24fpsで最大5秒の長さの短いビデオクリップを生成できることです。ユーザーはシンプルで使いやすいWebインターフェースを介して、テキストプロンプトや画像を入力して動画を作成できます。

研究がAI言語モデルの限界を警告：8Kを超えるコンテキストでは性能が半減、概念推論が課題に

ミュンヘン大学、ミュンヘン機械学習センター、Adobe Researchによる最近の共同研究によると、GPT-4o、Gemini 1.5 Pro、Llama-3.3-70Bなど、12種類の最先端AI言語モデルは、長文の概念推論タスクにおいて顕著な性能低下に直面しています。これらのモデルは、少なくとも128,000トークンのコンテキスト処理をサポートしていますが、深層的な論理的関連付け能力には根本的な限界があることが示されています。研究チームは、NOLIMA（ノーテキストマッチング…