Stability AIは、最新の深層学習によるテキストから画像生成モデル「Stable Diffusion 3.5」を発表しました。このバージョンには、研究者、企業顧客、愛好家など、さまざまなユーザーのニーズに対応する3種類の改良されたオープンソースモデルが含まれています。
その中でも、Stable Diffusion 3.5 Largeは、シリーズ全体で最も強力なモデルであり、パラメーター数は81億にも及びます。このモデルは、卓越した画像品質とプロンプトへの高い応答性により、1メガピクセルに達する高解像度の画像を生成できるため、プロフェッショナルユーザーに最適です。
さらに、Stable Diffusion 3.5 Large Turboは、Stable Diffusion 3.5 Largeの簡略版です。高品質な画像を生成しながら、速度を大幅に向上させており、わずか4ステップで画像生成を完了できます。以前のバージョンと比較して効率性が大幅に向上しており、迅速な創作が必要なユーザーに適しています。
もう1つの新しいモデルは、25億のパラメーターを持つStable Diffusion 3.5 Mediumです。このモデルは、改良されたMMDiT-Xアーキテクチャとトレーニング方法を採用しており、「すぐに使える」設計になっているため、消費レベルのハードウェアでもスムーズに動作します。画像生成品質とカスタマイズの容易さのバランスが良く、0.25〜2メガピクセルの画像を生成できます。
今回の発表の背景には、6月に発表されたStable Diffusion 3 Mediumが期待どおりに機能しなかったため、Stability AIがより革新的なソリューションを提供することを決定したことがあります。同社は、このアップデートを通じて市場競争力を回復し、OpenAIのDALL-EやMidjourneyなどのプラットフォームに対抗したいと考えています。
新しいモデルの重要な技術革新の1つは、クエリキー正規化(Query-Key Normalization)技術の導入です。この革新により、モデルのカスタマイズ性とプロンプトへの応答性が向上し、ユーザーは明確なプロンプトでより一貫性のある結果を得ることができ、より幅広いプロンプトを使用した場合でも、より豊かな画像解釈を得ることができます。
Stable Diffusion 3.5シリーズのモデルは、Stability AIのコミュニティライセンスの下で公開され、ユーザーは非商業目的で無料で利用できます。また、年間収入が100万ドル未満の団体も商業利用を無料で利用できます。収入がこれを超えるユーザーは、企業ライセンスを申請する必要があります。
すべてのモデルとその自己ホスティングに必要な重みは、Hugging FaceとStability AIのAPIで提供されます。さらに、高度な画像カスタマイズオプションを提供するControlNets機能が、今後数日以内に導入される予定です。
公式入口:
https://stability.ai/stable-image
3つのバージョンのHugging Face入口:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
ポイント:
🌟 新しいStable Diffusion 3.5は、3つのモデルバージョンを提供し、さまざまなユーザーニーズに対応します。
⚡ Stable Diffusion 3.5 Large Turboは、より高速な画像生成速度を備えており、迅速な創作に適しています。
📈 新しいモデルはクエリキー正規化技術を導入し、カスタマイズ性と応答性を向上させています。