この度、AI企業Rhymes AIは、高度なテキスト生成ビデオモデル「Allegro」を正式にオープンソース化しました。Allegroを使用すると、簡単なテキストの説明から高品質の短いビデオクリップを生成でき、AIによるビデオ生成分野のクリエイター、開発者、研究者にとって新たな可能性を切り開きます。
Allegroは、ユーザーが提供したテキストプロンプトに基づいて、6秒間、15fps、720pの高解像度ビデオを生成できます。人物や動物のクローズアップから、様々なシーンのアクションまで、テキストによる説明に基づいたほぼあらゆるシーンを実現できます。
Allegroの中核技術には、大規模ビデオデータ処理、元のビデオを視覚トークンに圧縮すること、拡張ビデオ拡散Transformerが含まれます。
大規模ビデオデータ処理において、Rhymes AIは、システムのデータ処理とフィルタリングパイプラインを設計し、元のデータからトレーニングビデオを抽出し、構造化データシステムを開発して、データの多次元分類とクラスタリングを行い、モデルのトレーニングと微調整を容易にしました。
ビデオを視覚トークンに圧縮する点において、Allegroはビデオ変分オートエンコーダー(VideoVAE)を使用して、元のビデオをより小さな視覚トークンに圧縮し、必要な詳細を保持しながら、よりスムーズで効率的なビデオ生成を実現します。VideoVAEは、事前にトレーニングされた画像VAEをベースに構築され、時空間モデリングレイヤーを拡張することで、空間圧縮能力を効果的に活用しています。
拡張ビデオ拡散Transformerにおいて、Allegroの中核は拡張された拡散Transformerアーキテクチャであり、拡散モデルを使用して高解像度のビデオフレームを生成し、ビデオモーションの品質とスムーズさを確保します。AllegroのバックボーンネットワークはDiT(拡散Transformer)アーキテクチャに基づいて構築されており、3D RoPE位置エンコーディングと3D全注意機構を備えています。UNetアーキテクチャを使用する従来の拡散モデルと比較して、Transformerアーキテクチャはモデルの拡張に有利です。3D注意機構を利用することで、DiTはビデオフレームの空間次元とその時間的進化を同時に処理できるため、モーションとコンテキストをより詳細に理解できます。
Rhymes AIは、Allegroは始まりに過ぎず、画像からビデオへの生成、モーションコントロール、より長く、物語に基づいた、ストーリーボードスタイルのビデオ生成のサポートなど、より高度な機能を積極的に開発中であると述べています。
AI駆動のビデオ制作をより幅広いユーザーが利用できるようにするため、Rhymes AIはAllegroのモデルウェイトとコードをすべてオープンソース化し、コミュニティによる探求、創造性の解放、そしてその基盤での構築を奨励することで、AIによるビデオ生成技術における協調的な進歩を目指しています。
プロジェクトアドレス:https://github.com/rhymes-ai/Allegro