Unified-IO 2
Modèle génératif multi-modal unifié
Produit OrdinaireImageMulti-modalTransformer
Unified-IO 2 est un modèle génératif multi-modal unifié capable de comprendre et de générer des images, du texte, de l'audio et des actions. Il utilise un seul modèle Transformer encodeur-décodeur, représentant les entrées et sorties de différents modes (images, texte, audio, actions, etc.) dans un espace sémantique partagé pour le traitement. Ce modèle a été entraîné à partir de zéro sur un corpus de pré-entraînement multi-modal à grande échelle, optimisé avec un objectif de dé-bruitage multi-modal. Afin d'acquérir un large éventail de compétences, il a également été finement ajusté sur 120 jeux de données existants, incluant des invites et une augmentation des données. Unified-IO 2 a atteint des performances de pointe sur le benchmark GRIT, obtenant d'excellents résultats sur plus de 30 benchmarks, incluant la génération et la compréhension d'images, la compréhension de texte, la compréhension vidéo et audio, ainsi que la robotique.
Unified-IO 2 Dernière situation du trafic
Nombre total de visites mensuelles
442
Taux de rebond
58.22%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00