UNIMO-G

Génération d'images unifiée

Produit OrdinaireImageGénération d'imagesMultimodal
UNIMO-G est un framework de diffusion conditionnelle multimodale simple, conçu pour traiter les entrées textuelles et visuelles entrelacées. Il comprend deux composants principaux : un grand modèle linguistique multimodale (MLLM) pour encoder les invites multimodales, et un réseau de diffusion conditionnelle débruitant pour générer des images basées sur les entrées multimodales encodées. Nous utilisons une stratégie d'entraînement en deux étapes pour entraîner efficacement ce framework : un pré-entraînement sur un grand ensemble de paires texte-image pour développer les capacités de génération d'images conditionnelles, suivi d'un réglage guidé par invites multimodales pour atteindre la capacité de génération d'images unifiée. Nous avons mis en place un processus de traitement de données soigneusement conçu, incluant l'ancrage linguistique et la segmentation d'images, pour construire des invites multimodales. UNIMO-G excelle dans la génération d'images à partir de texte et la synthèse thématique à zéro coup, et est particulièrement efficace pour générer des images haute-fidélité à partir d'invites multimodales complexes impliquant plusieurs entités d'images.
Ouvrir le site Web

UNIMO-G Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

UNIMO-G Tendance des visites

UNIMO-G Distribution géographique des visites

UNIMO-G Sources de trafic

UNIMO-G Alternatives