Deep Floyd
Modèle texte-image hautement réaliste
Produit OrdinaireImageTexte-imageSynthèse d'images
Deep Floyd est un modèle texte-image open source, caractérisé par un réalisme et une compréhension du langage exceptionnels. Il se compose d'un encodeur de texte figé et de trois modules de diffusion de pixels en cascade : un modèle de base pour générer des images de 64x64 pixels à partir d'une invite textuelle, et deux modèles de sur-résolution pour générer des images de résolutions progressivement augmentées : 256x256 pixels et 1024x1024 pixels. Toutes les étapes du modèle utilisent un encodeur de texte figé basé sur le transformateur T5 pour extraire les plongements de texte, qui sont ensuite introduits dans une architecture UNet améliorée par l'attention croisée et le pooling d'attention. Ce modèle efficace surpasse les modèles actuels les plus performants, atteignant un score FID de 6,66 en zéro-shot sur le jeu de données COCO. Notre travail souligne le potentiel d'une architecture UNet plus large dans la première étape des modèles de diffusion en cascade et présente un avenir prometteur pour la synthèse d'images à partir de texte.
Deep Floyd Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34