Deep Floyd

Hochrealistisches Text-zu-Bild-Modell

Normales ProduktBildText-zu-BildBildsynthese
Deep Floyd ist ein Open-Source Text-zu-Bild-Modell mit hoher Realitätsnähe und ausgeprägtem Sprachverständnis. Es besteht aus einem eingefrorenen Text-Encoder und drei kaskadierten Pixel-Diffusionsmodulen: einem Basismodell zur Generierung von 64x64 Pixel großen Bildern anhand von Textprompts sowie zwei Super-Resolution-Modellen zur Erzeugung von Bildern mit steigender Auflösung: 256x256 Pixel und 1024x1024 Pixel. Alle Stufen des Modells nutzen einen auf dem T5-Transformer basierenden, eingefrorenen Text-Encoder zur Extraktion von Texteinführungen, die dann in eine UNet-Architektur eingespeist werden, die um Cross-Attention und Attention Pooling erweitert wurde. Dieses effiziente Modell übertrifft aktuelle Top-Modelle und erreicht einen Zero-Shot FID-Score von 6,66 auf dem COCO-Datensatz. Unsere Arbeit unterstreicht das Potenzial größerer UNet-Architekturen in der ersten Stufe kaskadierter Diffusionsmodelle und zeigt eine vielversprechende Zukunft für die Text-zu-Bild-Synthese auf.
Website öffnen

Deep Floyd Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

Deep Floyd Besuchstrend

Deep Floyd Geografische Verteilung der Besuche

Deep Floyd Traffic-Quellen

Deep Floyd Alternativen