昨日夜、Stability AIは、最も強力なモデルであるStable Diffusion 3.5を発表しました。これは単一のモデルではなく、研究者からビジネス愛好家、スタートアップ企業、大企業まで、多様なニーズに対応する3つのバージョンを含むファミリーパックです。

この3つのバージョンは、Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo、そして10月29日にリリース予定のStable Diffusion 3.5 Mediumです。

微信截图_20241023082320.png

Stable Diffusion 3.5 Largeは、80億個のパラメータを持つ基本モデルであり、その優れた画像品質とプロンプトの精度で知られています。専門用途に最適で、最大100万ピクセルの解像度の画像を生成できます。

Stable Diffusion 3.5 Large Turboは、前者の蒸留版です。わずか4ステップで高品質な画像を生成でき、Stable Diffusion 3.5 Largeよりもはるかに高速です。

Stable Diffusion 3.5 Mediumは、25億個のパラメータを持ち、改良されたMMDiT-Xアーキテクチャとトレーニング方法を採用しています。プラグアンドプレイ設計で、一般消費者向けハードウェアで直接実行でき、画像品質とカスタマイズ性のバランスが取れています。0.25~200万ピクセルの解像度の画像を生成できます。

微信截图_20241023082357.png

これらのモデルの開発では、カスタマイズ性を優先しました。Query-Key Normalizationをtransformerブロックに統合することで、モデルのトレーニングプロセスを安定させ、さらなる微調整と開発を簡素化しました。下流タスクの柔軟性をサポートするために、Stability AIはモデルに幅広い知識ベースと多様なスタイルを保持しています。ただし、これにより出力結果の不確実性が増す可能性があります。

Stable Diffusion 3.5モデルは、カスタマイズ性、高効率なパフォーマンス、多様な出力など、多くの点で優れた性能を発揮します。これらのモデルは、特定の創作ニーズに合わせて簡単に微調整したり、カスタムワークフローに合わせてアプリケーションを構築したりできます。また、標準的な一般消費者向けハードウェアで動作するように最適化されており、高いハードウェア要件は必要ありません。さらに、これらのモデルは、多くのプロンプトを必要とせずに、世界中の画像を表すことができ、3D、写真、絵画、線画など、想像できるほぼあらゆる視覚スタイルの画像を生成できます。

微信截图_20241023082912.png

微信截图_20241023082919.png

Stability AIは、安全への取り組みについても強調しており、Stable Diffusion 3.5の悪用を防ぐための適切な措置を講じており、開発の初期段階から整合性に重点を置いています。さらに、Stability AIコミュニティライセンスは非常に寛容であり、個人や組織が非商業目的(科学研究を含む)でモデルを無料で使用できます。年収が100万ドル以下のスタートアップ企業、中小企業、クリエイターは、商業目的でも無料でこのモデルを使用できます。生成されたメディアの所有権は保持され、制限的なライセンスの影響を受けることはありません。

Stable Diffusion 3.5モデルは、Hugging Faceで自己ホスティングが可能であり、推論コードもオープンソース化されています。また、Stability AI API、Replicate、ComfyUI、DeepInfraなどのプラットフォームからもアクセスできます。

体験アドレス:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large