Stability AIは技術的障壁を再び突破し、新しいStable Diffusion 3.5 Mediumモデルを発表しました。この一般向けAIペイントツールは、完全に無料で商用利用が可能であるだけでなく、高性能と普及性の完璧なバランスを実現しています。
このマルチモーダル拡散変換器(MMDiT-X)アーキテクチャを採用したモデルは、25億パラメータの簡素な設計により、一般ユーザーのハードウェアのハードル問題を巧みに解決しました。わずか9.9GBのVRAMで、ほとんどの消費者向けグラフィックカードでスムーズに動作し、「誰でも利用可能」というビジョンを実現しました。
技術革新の面では、このモデルは3種類の事前学習済みテキストエンコーダーを統合し、QK標準化技術を導入してトレーニングの安定性を向上させています。特に注目すべきは、最初の12の変換層における二重注意機構の設計で、画像品質、レイアウト効果、複雑なプロンプトの理解において顕著な向上を実現しています。
モデルのトレーニングプロセスは、合成データと厳選された公開データを融合し、漸進的な解像度向上による混合トレーニング戦略を採用することで、生成画像の多様性と品質を確保しています。同種のミドルサイズモデルと比較して、画像生成効果と処理速度の両方で明確な優位性を示しています。
ただし、使用時にはいくつかの点に注意が必要です。プロンプトが長すぎると、画像の端に欠陥が生じる可能性があります。画像の構造の完全性を最適化するには、スキップレイヤーサンプリング方法を使用することをお勧めします。また、トレーニングデータの分布の違いにより、同じプロンプトでも異なる創作結果が得られる可能性があることに注意してください。
このモデルの発表は、個人クリエイターやスタートアップ企業に便利なAI創作ツールを提供するだけでなく、Stability AIがAI技術の普及を推進しようとする決意を示しています。芸術創作や教育開発に使用される場合でも、より幅広いユーザー層にAI創作の可能性をもたらすでしょう。
モデルダウンロードアドレス:https://huggingface.co/stabilityai/stable-diffusion-3.5-medium