Stability AI、新たなStable Diffusion 3.5生成モデルを発表、3つのバージョンと大幅な速度向上

Stability AIは、最新の深層学習によるテキストから画像生成モデル「Stable Diffusion 3.5」を発表しました。このバージョンには、研究者、企業顧客、愛好家など、さまざまなユーザーのニーズに対応する3種類の改良されたオープンソースモデルが含まれています。

その中でも、Stable Diffusion 3.5 Largeは、シリーズ全体で最も強力なモデルであり、パラメーター数は81億にも及びます。このモデルは、卓越した画像品質とプロンプトへの高い応答性により、1メガピクセルに達する高解像度の画像を生成できるため、プロフェッショナルユーザーに最適です。

さらに、Stable Diffusion 3.5 Large Turboは、Stable Diffusion 3.5 Largeの簡略版です。高品質な画像を生成しながら、速度を大幅に向上させており、わずか4ステップで画像生成を完了できます。以前のバージョンと比較して効率性が大幅に向上しており、迅速な創作が必要なユーザーに適しています。

もう1つの新しいモデルは、25億のパラメーターを持つStable Diffusion 3.5 Mediumです。このモデルは、改良されたMMDiT-Xアーキテクチャとトレーニング方法を採用しており、「すぐに使える」設計になっているため、消費レベルのハードウェアでもスムーズに動作します。画像生成品質とカスタマイズの容易さのバランスが良く、0.25〜2メガピクセルの画像を生成できます。

今回の発表の背景には、6月に発表されたStable Diffusion 3 Mediumが期待どおりに機能しなかったため、Stability AIがより革新的なソリューションを提供することを決定したことがあります。同社は、このアップデートを通じて市場競争力を回復し、OpenAIのDALL-EやMidjourneyなどのプラットフォームに対抗したいと考えています。

新しいモデルの重要な技術革新の1つは、クエリキー正規化（Query-Key Normalization）技術の導入です。この革新により、モデルのカスタマイズ性とプロンプトへの応答性が向上し、ユーザーは明確なプロンプトでより一貫性のある結果を得ることができ、より幅広いプロンプトを使用した場合でも、より豊かな画像解釈を得ることができます。

Stable Diffusion 3.5シリーズのモデルは、Stability AIのコミュニティライセンスの下で公開され、ユーザーは非商業目的で無料で利用できます。また、年間収入が100万ドル未満の団体も商業利用を無料で利用できます。収入がこれを超えるユーザーは、企業ライセンスを申請する必要があります。

すべてのモデルとその自己ホスティングに必要な重みは、Hugging FaceとStability AIのAPIで提供されます。さらに、高度な画像カスタマイズオプションを提供するControlNets機能が、今後数日以内に導入される予定です。

公式入口：

https://stability.ai/stable-image

3つのバージョンのHugging Face入口：

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

ポイント：
🌟 新しいStable Diffusion 3.5は、3つのモデルバージョンを提供し、さまざまなユーザーニーズに対応します。
⚡ Stable Diffusion 3.5 Large Turboは、より高速な画像生成速度を備えており、迅速な創作に適しています。
📈 新しいモデルはクエリキー正規化技術を導入し、カスタマイズ性と応答性を向上させています。

AIニュース

Stability AI、新たなStable Diffusion 3.5生成モデルを発表、3つのバージョンと大幅な速度向上

AIbase基地

関連AIニュースの推奨

Stability AIとArmが協力し、オフライン音声生成技術を発表

智譜が漢字生成可能なオープンソース文描画モデルCogView4を発表

科大訊飛、星火大規模言語モデルX1の全面アップグレードを発表

アリババ通義千問、推論モデルQwQ-Maxプレビュー版を発表 qwen.aiドメインで体験可能