全網で最も詳細な画像付きレビュー！Stability.AIがSD3.5 Largeモデルを発表、FLUXを凌駕し逆転できるか？

站长素材

公開日AIニュース · 2 分で読めます · Oct 23, 2024

302

SD3.5の軌跡

6月、Stability AIはStable Diffusion 3 Mediumを発表しましたが、FLUXの登場後、SD3は事実上忘れ去られてしまいました。FLUXにあらゆる面で劣り、Stability AIの不公平な条件もSD3の評判を著しく落としました。今回、公式は教訓を活かし、3.5版を開発し、SD3.5を構築者とクリエイターに広くアクセス可能な、最先端で、ほとんどの用途で無料のツールとして提供すると約束しました。

モデルの特徴

数時間前、Stability AIは正式にStable Diffusion 3.5「large」版を発表しました。

今回のアップデートには2つの大きな特徴があります。

① モデルのスタイルの多様性が向上し、ユーザーはプロンプトを変更することで、より多くの画像スタイルを取得できます。

② 画像生成のAI的な質感は低減され、光と影、素材においてより自然になり、生成された画像がよりリアルになりました。

今回Stability AIは、Large版とLarge Turbo版の2つのバージョンを発表しました。

公式によると、Medium版は10月29日にリリースされる予定です。

現在の2つのバージョンの概要は以下の通りです。

Stable Diffusion 3.5 Large: 80億個のパラメータを持つ基本モデルで、卓越した品質と迅速な応答性を備え、Stable Diffusionシリーズの中で最も強力です。このモデルは1MP解像度のプロフェッショナルな用途に最適です。
Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Largeの軽量版で、わずか4ステップで優れた高速性と高品質な画像を生成でき、Stable Diffusion 3.5 Largeよりもはるかに高速です。

下図は公式が提供するモデルの比較です。美しさはFLUX 1 Devに劣りますが、プロンプトへの忠実度は現状最高です。

そこで、SD3.5の実力をFLUXと比較し、AI画像生成分野の頂点に返り咲けるかどうかを検証してみましょう。

より詳細な情報は公式発表ページをご覧ください: https://stability.ai/news/introducing-stable-diffusion-3-5

オンライン体験

Large オンライン体験版: https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

Turbo オンライン体験版: https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large-turbo

モデルダウンロード

Large ダウンロード: https://huggingface.co/stabilityai/stable-diffusion-3.5-large

Turbo ダウンロード: https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

初回ダウンロードには、連絡先の情報を入力する必要があります。

モデルの使用

公式が提供するサンプルワークフローとモデルをダウンロードします。モデルはComfyUI\models\checkpointsに配置します。

ワークフローをComfyUIにドラッグアンドドロップします。ノードが不足している場合は、不足しているノードをインストールします。以前SD3を使用していた方は、これらのノードは既にインストールされているはずです。

3つのCLIPモデルをロードする必要があります。持っていない方は、こちらからダウンロードできます: https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main/text_encoders

ダウンロードしたら、ComfyUI\models\clipフォルダに配置します。

最高の効果を求める場合は、T5xxlをFP16版に置き換えることができます。

出力結果

SD3.5の出力は非常にメモリを消費します。4090 24GBのメモリでも簡単にメモリ不足になります。通常、1024×1024の画像を生成するのに約40秒かかります。

まとめ

上の図の比較から、それぞれ長所と短所があることが分かります。

SD3.5では、人物の手の部分にまだ問題があります。開発チームもこれらの問題を認識している可能性があり、FLUXよりも隠蔽されている可能性があります。

長所としては、SD3.5の出力がより写実的な場合があります。FLUXは肌の描写が油っぽい傾向がありますが、SD3.5はより繊細でリアルです。

長文とプロンプトへの忠実度については、どちらもほぼ同じです。

美しさに関しては、SD3.5の方が優れている場合があります。

パフォーマンス面では、SD3.5はFLUXに劣り、FLUXよりも生成時間が長く、メモリ消費量も大きいです。

しかし、現状FLUXのエコシステムの方が充実しているので、短期的にはSD3.5がFLUXを凌駕することは難しいでしょう。

------------------------------------------------------------------------------------------

站長素材AI教程は站長之家傘下のAI画像生成チュートリアルプラットフォームです。

豊富なAI無料チュートリアルを継続的に更新しています。

AI画像生成チュートリアルをさらに深く学びたい方は、站長素材AI教程サイトをご覧ください。

https://aisc.chinaz.com/jiaocheng/

AMDグラフィックカードの性能が飛躍的に向上！Stable Diffusionモデルが大幅に最適化

AMDのAI分野における進歩は注目に値し、特にStable Diffusionモデルに対する最新の最適化は特筆すべきです。最近、Stability AIはONNXフレームワークに基づいた最適化されたStable Diffusionバージョンをリリースしました。これは、AMDのRadeonグラフィックカードとRyzen統合グラフィックスがAIタスク実行時のパフォーマンスを大幅に向上させ、最大3.8倍の高速化を実現することを意味します。この進歩は、NVIDIAとのエコシステムにおける差を縮めるだけでなく、…

Kreaアップグレード版リアルタイム生成　FLUXによるリアルタイム画像生成に対応、創造的なコラージュ組み合わせ

画像融合において、Kreaはまさに最高峰と言えるでしょう。カスタムトレーニングの導入に続き、Kreaはアップグレード版リアルタイム生成を発表しました。アップグレードされたKreaはFLUXによるリアルタイム画像生成に対応しており、複数の画像をアップロードし、切り抜き、3Dに変換して、コラージュのように任意の要素を創造的に組み合わせることができます。この新しい画像生成制御インタラクションにより、AI画像生成におけるランダム性や制御不能性の問題が解決されました。例えば、車と飛行機を森の画像にドラッグし、3Dに変換した後、これらの要素を自由に回転させることができます。

AI日報：バイトダンスDoubaoがAIプログラミング機能を新搭載；テンセントの大規模モデル検出ツールがAIの偽情報を撲滅；FLUX ProファインチューニングAPIでAIモデルをカスタマイズ

【AI日報】へようこそ！AIの世界を探求するあなたのための毎日更新の情報源です。毎日、AI分野のホットな話題をお届けし、開発者をフォーカスし、技術トレンドの洞察と革新的なAI製品の応用を支援します。最新のAI製品はこちら：https://top.aibase.com/1、バイトダンスのDoubaoがAIプログラミング機能を新搭載し、GitHubのオープンソースリポジトリを導入バイトダンス傘下のDoubaoは、開発者のプログラミング効率と体験の向上を目指した、新しいAIプログラミング機能を発表しました。マイクロソフト

ブラックフォレストラボ、FLUX ProファインチューニングAPIを発表、わずか5枚のサンプル画像でAIモデルをカスタマイズ可能に

ドイツの人工知能スタートアップ企業であるBlack Forest Labs（ブラックフォレストラボ）は最近、FLUX ProファインチューニングAPIを発表しました。このAPIを使用することで、わずか5枚のサンプル画像を使用してFLUX Pro AI画像モデルをカスタマイズし、特定ブランドの視覚スタイルに合わせることが可能です。Black Forest Labsによると、ファインチューニング後もモデルは柔軟性を維持し、ユーザーが提供するコンテンツを新しい画像制作に統合できます。このシステムは…

Stability AI、1秒で3Dオブジェクトを生成するSPAR3Dを発表

先日終了したCESで、Stability AIはSPAR3D（Stable Point Aware3D）と呼ばれる革新的な手法を発表しました。この2段階の3D生成技術は、1秒以内に出力画像から正確な3Dオブジェクトを生成できます。この技術は、ゲーム開発者、プロダクトデザイナー、環境構築者にとって、全く新しい3Dプロトタイピングの方法を提供します。SPAR3Dのユニークな点は、見える部分と見えない部分を別々にモデル化できる点です。

FLUXとNVIDIAが提携、FLUXモデルのGeForce RTX 50シリーズへの最適化を実現

FLUXは本日、NVIDIAとの戦略的パートナーシップを発表しました。両社はAI画像生成分野で緊密に技術協力を行います。今回の協力の主な焦点は、パフォーマンスの最適化、メモリ効率の向上、革新的な3D創作ワークフローです。ハードウェア対応において、FLUXモデルは新しくリリースされたGeForce RTX 50シリーズのグラフィックスカード向けに全面的に最適化されました。開発版FLUX.1は、NVIDIA BlackwellアーキテクチャのFP4演算技術を活用し、RTX 5090において顕著な成果を上げています。

超高速音声生成モデルTangoFlux：わずか3秒で30秒の音声を生成

人工知能分野において、テキスト音声生成技術は研究のホットトピックになりつつあります。最近、研究者らはTANGOFLUXという新しいモデルを発表しました。このモデルは性能と効率性の両面で優れた成果を示しています。TANGOFLUXは、5億1500万パラメーターを持つ高効率なテキスト音声生成モデルであり、最長30秒の44.1kHz音声データの生成にわずか3.7秒しかかかりません。この速度は、単一のA40 GPU上での動作において非常に優れたものです。TANGOFLUXは主に…

バイトダンス、1.58ビット量子化FLUXモデルを発表　メモリ消費7.7倍削減、性能向上！

DALLE3やAdobe Firefly3などの、AI駆動によるテキストツーイメージ（T2I）生成モデルは、優れた生成能力を示し、現実世界での応用において無限の可能性を秘めています。しかし、これらのモデルは通常数十億ものパラメータを持ち、メモリ消費が非常に大きいため、モバイルデバイスなどのリソースに制限のあるプラットフォームへの展開に大きな課題をもたらします。これらの問題を解決するため、ByteDanceとPOSTECHの研究者らは、T2Iモデルに対する極低ビット量子化技術を探求しました。数々の先進的な…

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

全網で最も詳細な画像付きレビュー！Stability.AIがSD3.5 Largeモデルを発表、FLUXを凌駕し逆転できるか？

站长素材

SD3.5の軌跡

モデルの特徴

オンライン体験

モデルダウンロード

モデルの使用

出力結果

まとめ

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

AMDグラフィックカードの性能が飛躍的に向上！Stable Diffusionモデルが大幅に最適化

OminiControl Art発表：GPT-4oのジブリ等のアニメスタイルをFLUXモデルに凝縮

Stability AI、新モデルStable Virtual Cameraを発表 2D写真から3Dビデオを簡単に作成

Kreaアップグレード版リアルタイム生成 FLUXによるリアルタイム画像生成に対応、創造的なコラージュ組み合わせ