Tencent EMMA
Modèle de génération d'images à partir de texte multi-modal
Nouveau Produit PremiumImageGénération d'imagesMultimodal
EMMA est un nouveau modèle de génération d'images basé sur le modèle de diffusion texte-vers-image de pointe ELLA. Il est capable d'accepter des invites multimodales et intègre efficacement les informations textuelles et modales supplémentaires grâce à une conception innovante de connecteurs de caractéristiques multimodales. Ce modèle, en gelant tous les paramètres du modèle de diffusion T2I d'origine et en ajustant uniquement quelques couches supplémentaires, révèle une caractéristique intéressante : les modèles de diffusion T2I pré-entraînés peuvent secrètement accepter des invites multimodales. EMMA s'adapte facilement à différents frameworks existants et constitue un outil flexible et efficace pour générer des images, voire des vidéos, personnalisées et contextuelles.