Deep Floyd

Modèle texte-image hautement réaliste

Produit OrdinaireImageTexte-imageSynthèse d'images
Deep Floyd est un modèle texte-image open source, caractérisé par un réalisme et une compréhension du langage exceptionnels. Il se compose d'un encodeur de texte figé et de trois modules de diffusion de pixels en cascade : un modèle de base pour générer des images de 64x64 pixels à partir d'une invite textuelle, et deux modèles de sur-résolution pour générer des images de résolutions progressivement augmentées : 256x256 pixels et 1024x1024 pixels. Toutes les étapes du modèle utilisent un encodeur de texte figé basé sur le transformateur T5 pour extraire les plongements de texte, qui sont ensuite introduits dans une architecture UNet améliorée par l'attention croisée et le pooling d'attention. Ce modèle efficace surpasse les modèles actuels les plus performants, atteignant un score FID de 6,66 en zéro-shot sur le jeu de données COCO. Notre travail souligne le potentiel d'une architecture UNet plus large dans la première étape des modèles de diffusion en cascade et présente un avenir prometteur pour la synthèse d'images à partir de texte.
Ouvrir le site Web

Deep Floyd Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

Deep Floyd Tendance des visites

Deep Floyd Distribution géographique des visites

Deep Floyd Sources de trafic

Deep Floyd Alternatives