UNIMO-G
Génération d'images unifiée
Produit OrdinaireImageGénération d'imagesMultimodal
UNIMO-G est un framework de diffusion conditionnelle multimodale simple, conçu pour traiter les entrées textuelles et visuelles entrelacées. Il comprend deux composants principaux : un grand modèle linguistique multimodale (MLLM) pour encoder les invites multimodales, et un réseau de diffusion conditionnelle débruitant pour générer des images basées sur les entrées multimodales encodées. Nous utilisons une stratégie d'entraînement en deux étapes pour entraîner efficacement ce framework : un pré-entraînement sur un grand ensemble de paires texte-image pour développer les capacités de génération d'images conditionnelles, suivi d'un réglage guidé par invites multimodales pour atteindre la capacité de génération d'images unifiée. Nous avons mis en place un processus de traitement de données soigneusement conçu, incluant l'ancrage linguistique et la segmentation d'images, pour construire des invites multimodales. UNIMO-G excelle dans la génération d'images à partir de texte et la synthèse thématique à zéro coup, et est particulièrement efficace pour générer des images haute-fidélité à partir d'invites multimodales complexes impliquant plusieurs entités d'images.
UNIMO-G Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44