Das Stable Diffusion 3 Modell wurde veröffentlicht und verwendet dieselbe DiT-Architektur wie Sora, mit deutlich verbesserter Qualität. Die Autoren geben an, dass Stable Diffusion 3 andere Text-zu-Bild-Generierungssysteme übertrifft. Die Modellgröße variiert zwischen 800 Millionen und 8 Milliarden Parametern. Die SD3-Architektur basiert auf einer Zusammenarbeit zwischen Kernentwicklern von Sora und einem Assistenzprofessor der New York University und verwendet die MMDiT-Architektur, die UViT und DiT überlegen ist. Stable Diffusion 3 verwendet die Rectified Flow (RF)-Formel, wobei eine von den Autoren vorgeschlagene, neu gewichtete RF-Variante zu kontinuierlichen Leistungssteigerungen führt. Das Modell wurde durch umfangreiche Forschung erweitert und durch einen flexiblen Text-Encoder verbessert. Vergleiche mit anderen Modellen wurden durchgeführt.
Stable Diffusion 3 Modell veröffentlicht: Architekturdetails enthüllt – Hilft es bei der Reproduktion von Sora?

机器之心
52
© Alle Rechte vorbehalten AIbase-Basis 2024, klicken Sie hier, um die Quelle anzuzeigen - https://www.aibase.com/de/news/6402