Deep Floyd
Hochrealistisches Text-zu-Bild-Modell
Normales ProduktBildText-zu-BildBildsynthese
Deep Floyd ist ein Open-Source Text-zu-Bild-Modell mit hoher Realitätsnähe und ausgeprägtem Sprachverständnis. Es besteht aus einem eingefrorenen Text-Encoder und drei kaskadierten Pixel-Diffusionsmodulen: einem Basismodell zur Generierung von 64x64 Pixel großen Bildern anhand von Textprompts sowie zwei Super-Resolution-Modellen zur Erzeugung von Bildern mit steigender Auflösung: 256x256 Pixel und 1024x1024 Pixel. Alle Stufen des Modells nutzen einen auf dem T5-Transformer basierenden, eingefrorenen Text-Encoder zur Extraktion von Texteinführungen, die dann in eine UNet-Architektur eingespeist werden, die um Cross-Attention und Attention Pooling erweitert wurde. Dieses effiziente Modell übertrifft aktuelle Top-Modelle und erreicht einen Zero-Shot FID-Score von 6,66 auf dem COCO-Datensatz. Unsere Arbeit unterstreicht das Potenzial größerer UNet-Architekturen in der ersten Stufe kaskadierter Diffusionsmodelle und zeigt eine vielversprechende Zukunft für die Text-zu-Bild-Synthese auf.
Deep Floyd Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34