Viduがローンチされて100日以上が経ちましたが、生数科技は、世界をリードする画期的な新バージョン、Vidu1.5のリリースを発表できることを誇りに思います。特に、多様な入力の理解と「一貫性」という課題の克服において大きな進歩を遂げました。
Vidu1.5の登場は、ビジュアルモデルが新たな「コンテキスト」時代に入ったことを意味し、汎用人工知能(AGI)の実現を加速させます。Viduはグローバルローンチ当初から、人物の顔の特徴を固定することでビデオ生成における重要な課題を解決する、キャラクターの一貫性生成機能を備えていました。9月には、世界に先駆けて「主体の一貫性」機能を発表し、顔の一貫性を全身の一貫性にまで拡張し、動物、物体、仮想キャラクターなど、あらゆる主体に範囲を広げました。Viduの技術的ブレークスルーは、複雑な主体の正確な制御、人物の顔の特徴とダイナミックな表情の自然な一貫性、複数主体の一貫性の3つの点に集約されます。
Vidu1.5は、ビジュアルモデルの新たな「インテリジェントな出現」を示し、その強力なコンテキスト学習能力を披露しています。これは、ビジュアルモデルが理解と想像力だけでなく、生成プロセスにおけるメモリ管理能力も備えていることを意味します。Vidu1.5は、業界をリードする生成効率を維持しており、30秒以内でビデオを生成できます。Viduは汎用性を重視した設計思想を採用し、LLM(大規模言語モデル)と同様の設計哲学に基づき、あらゆる問題を視覚入力と視覚出力の問題に統一し、単一のTransformerを使用して可変長の入力と出力を統一的にモデリングし、ビデオデータの圧縮からインテリジェンスを獲得します。
Vidu1.5の登場は、ビデオモデルの制御性を向上させるだけでなく、柔軟な多様な入力により、多角的、多主体、多要素の一貫性のある生成を実現しました。これは、視覚的知能の出現を示し、AGIの実現を加速させます。Viduは単なる高品質で効率的なビデオジェネレーターではなく、生成プロセスにコンテキスト情報とメモリを統合できるようになりました。これは、視覚モダリティ知能における「大きな飛躍」です。ビジュアルモデルはより強力な認知能力を備え、AGIの重要なピースとなるでしょう。
体験アドレス:www.vidu.studio