Lumina-T2X

あらゆるモダリティへのテキスト生成を統合したフレームワーク

一般製品画像テキストから画像テキストから動画

Lumina-T2Xは、テキスト記述から鮮明な画像、ダイナミックな動画、詳細な多視点3D画像、合成音声などを生成できる、先進的なテキストから任意のモダリティへの生成フレームワークです。ストリーミングベースの大規模拡散トランスフォーマー（Flag-DiT）を採用し、最大7億パラメータに対応、シーケンス長は最大128,000トークンに拡張可能です。Lumina-T2Xは、画像、動画、3Dオブジェクトの多視点ビュー、音声スペクトログラムを時空間潜在トークン空間に統合することで、任意の解像度、アスペクト比、長さの出力生成を可能にします。

Best AI Websites & Tools

Lumina-T2X

Lumina-T2X 最新のトラフィック状況

Lumina-T2X 訪問数の傾向

Lumina-T2X 訪問地理的分布

Lumina-T2X トラフィックソース

Lumina-T2X 代替品

Lumina-T2X — あらゆるモダリティへのテキスト生成を統合したフレームワーク

Stable Diffusion 3.5 Large Turbo — 高性能なテキストから画像生成モデル

AsyncDiff — 非同期ノイズ除去による並列化拡散モデル

DynamicControl — 適応型条件選択により、テキストから画像への生成制御力を向上

text-to-pose — テキストからポーズを生成し、さらに画像を生成するモデルです。

SeedEdit — テキストプロンプトに基づいて画像を修正する大規模拡散モデル

InstantIR — 盲画像復元技術。即時生成参照画像を用いて、破損画像を復元します。

Stable Diffusion 3.5 Medium — テキストから画像を生成するマルチモーダル拡散変換器モデル

Stable Diffusion 3.5 Large — 高性能のテキストから画像を生成するモデル

Concept Sliders — 拡散モデルにおける概念を精密に制御するための低ランクアダプター

AuraFlow — オープンソースの、流に基づくテキストから画像生成モデル

Slicedit — テキストベースのビデオ編集技術。時空間スライシングを使用します。

ELLA — LLMによる意味整合性を強化した拡散モデルアダプター

SLD（自己修正型LLM制御拡散モデル） — 公式実装の自己修正型LLM制御拡散モデル

軌道一貫性蒸留 (TCD) — テキストから画像への合成品質の一貫性を向上させる蒸留技術

FreeControl — テキストから画像生成プロセスを制御します

直交微調整 (OFT) — OFTは、テキストから画像への拡散モデルの微調整を効果的に安定させることができます。

Make-A-Shape — 数千万規模の3D形状モデル

Show-1 — Show-1は、効率的な高品質なテキストから動画への生成を実現するため、ピクセルベースと潜在拡散モデルを組み合わせたモデルです。

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

SRM — ノイズ除去生成モデルによる空間推論を通じて、複雑な分布下でのビジョンタスクを解決します。

CogView4-6B — CogView4-6Bは、高品質な画像生成に特化した強力なテキストから画像への生成モデルです。

Project Starlight — Project Starlight は、AI ベースのビデオ強化ツールで、低解像度および破損したビデオを高画質にアップスケールします。

Wan2GP — Wan2GPは、低スペックGPUユーザー向けに設計された、最適化されたオープンソースの動画生成モデルです。様々な動画生成タスクに対応しています。

Mercury Coder — Mercury Coder は、拡散モデルに基づく高性能コード生成言語モデルです。

VideoGrain — VideoGrainは、カテゴリレベル、インスタンスレベル、パーツレベルの動画編集を実現するためのゼロショット手法です。

Wan2.1-T2V-14B — Wan2.1-T2V-14Bは、様々な動画生成タスクに対応する高性能なテキストから動画への生成モデルです。

Microsoft Muse — Museは、ゲームのアイデア構想のための生成AIモデルとしてマイクロソフトが初めて発表したもので、ゲームのビジュアルエフェクトと操作動作を生成できます。

BioEmu — BioEmuは、タンパク質平衡系アンサンブルを拡張可能なシミュレーションを行うための生成型深層学習モデルです。

MakeAnything — MakeAnythingは、多様な分野におけるプログラムによるシーケンス生成を行う拡散変換器モデルです。